在自然科学领域的大部分学科,科学论文可以分为实验论文与理论论文。实验论文中所包含的“信息”从实验中产生,通过论文这一载体展示出来,并被其他学者引用在他们的论文中,便完成一次信息传递。同样,实验论文也会利用理论论文中的知识来指导自身的实验设计。科普知识便在两种模式中交互传递与更新。但是,如何对这一过程进行精确描述却始终是一个挑战。
科普知识的生产模式——科学计量学视角
最近,来自于欧洲核子研究组织(CERN)理论物理系的Stefano Carrazza,意大利米兰大学计算机科学系的AlfioFerrara和意大利米兰大学经济学、管理学与定量方法学系的SilviaSalini共同发表了一篇使用科学计量学方法评价大型强子对撞机(LargeHadron Collider,LHC)时代下的研究设备(research infrastructures)的论文。该文使用了包括LHC实验、大型正负电子对撞机实验和粒子加速器实验等话题相关的题录数据进行科学计量学视角的分析讨论。
该文将科学实验中产生并由实验人员撰写的论文称为第0类论文(Level 0),它们代表了由实验产生知识的文献源头,是第一手知识;并将根据文献而非直接从实验中得到的论文称为第1类论文(Level 1)。第1类论文引用了第0类论文记作“1to0”;依此类推。
数据揭示了知识生产的以下几个基本规律:
在实验之前,被第0类论文引用的第1类论文数量要比该实验产出的第0类论文数量多,即理论发展在前。
在实验开始后,第0类论文的数量开始增长;从之后的某一时刻开始,实验论文的数量开始和引用该实验论文的文献论文数量的增长速率类似,即实验论文的发展是由实验驱动的。
在实验有了一定的成果时,第0类论文和第1类论文的数量达到顶峰没。之后实验论文逐步减少,而实验结束10年后,第1层论文引用其他引用第0层论文的第1层论文数量也没有减少,即实验知识持续被理论理论论文研究与利用。
知识生产过程中的“物以类聚,人以群分”
该论文还使用了聚类分析方法分析了论文被引模式。结果显示,虽然被引数量和文章的话题(topic)有一定的关系,但更多地还是与论文发表距今的时间长短有更强的相关关系。同时,实证研究结果显示,年份较为相近的论文,其话题也较为相似,这体现出语义维度和时间维度上的同质性。这种现象的出现可能与该段时间的热点话题或特定研究范式有关。此外,该文还发现了语义维度与类大小(thesize of the cluster)之间的具有一定的相关性。
在该研究的基础上,我们还能做些什么?
该论文为我们展示了文献计量工具在研究科学知识生产与演化中的强大力量。但是,论文并没有使用以作者共引网络为代表的其他科学计量方法进行挖掘,也没有在现有的聚类分析基础上绘制高能粒子物理领域的科学知识图谱。这些也许可以作为未来进行研究的深入点。
(原文标题为:科学知识是如何生产出来的?)
责编:科普知识