Skip to main content
QUICK REVIEW

[论文解读] Good practices for a literature survey are not followed by authors while preparing scientific manuscripts

Diego R. Amancio, Maria G. V. Nunes|arXiv (Cornell University)|May 17, 2010
Complex Network Analysis Techniques参考文献 28被引用 26
一句话总结

本文指出,作者在文献综述中常忽视两项关键实践:基于内容相似性的参考文献选择和系统性的引文网络搜索。通过在arXiv数据集上运用复杂的网络模型与自然语言处理技术,作者发现被引用论文与数据集中最相似文献之间的一致性较低(一致性指数为0.19–0.47),且实际引用与基于随机游走的引文网络探索之间相关性极低(皮尔逊相关系数 r = 0.075),表明文献综述实践存在明显不足。本研究提出‘虚拟科学计量学’——一种基于相似性与网络的引文推荐计算方法——以实现科学评价中更公平、偏差更小的影响评估。

ABSTRACT

The number of citations received by authors in scientific journals has become a major parameter to assess individual researchers and the journals themselves through the impact factor. A fair assessment therefore requires that the criteria for selecting references in a given manuscript should be unbiased with respect to the authors or the journals cited. In this paper, we advocate that authors should follow two mandatory principles to select papers (later reflected in the list of references) while studying the literature for a given research: i) consider similarity of content with the topics investigated, lest very related work should be reproduced or ignored; ii) perform a systematic search over the network of citations including seminal or very related papers. We use formalisms of complex networks for two datasets of papers from the arXiv repository to show that neither of these two criteria is fulfilled in practice.

研究动机与目标

  • 调查作者在撰写科学论文时是否遵循良好的参考文献选择实践。
  • 评估引文选择是否基于与论文主题的内容相似性。
  • 评估作者在整理参考文献时是否执行了对引文网络的系统性搜索。
  • 提出一种计算框架——‘虚拟科学计量学’——以改善基于引文的影响评估的公平性并减少偏差。
  • 开发辅助工具,帮助作者利用相似性与网络扩散度量识别被忽视但高度相关的文献。

提出的方法

  • 通过文本预处理后连接相邻词语,将每篇论文建模为复杂网络,以计算内容相似性。
  • 在每个研究领域构建两个网络:(1) 引文网络(从引用文献指向被引用文献的有向边),(2) 重叠网络(基于文本相似性的无向边)。
  • 计算‘一致性指数’,衡量被引用文献中属于数据集中最相似文献的比例,最大值为1.0。
  • 通过在引文网络上进行随机游走模拟系统性文献搜索,以建模引文网络探索行为。
  • 使用皮尔逊相关系数比较随机游走中的访问频率与实际引文列表、以及与论文下载量之间的相关性。
  • 提出一种虚拟引文系统:基于相似性阈值推荐参考文献,并通过引文网络中随机游走的频率评估其影响力。

实验结果

研究问题

  • RQ1作者在撰写论文时,有多大程度会引用其研究领域中内容最相似的文献?
  • RQ2实际引文列表与基于网络的系统性文献搜索之间相关性如何?
  • RQ3通过随机游走访问引文网络的频率与实际引文模式及论文下载量相比如何?
  • RQ4基于相似性与网络的推荐系统能否作为更公平的科学影响力评估替代方案?
  • RQ5不良的文献综述实践对引文偏差与研究评价有何影响?

主要发现

  • 一致性指数——衡量被引用文献中属于数据集中最相似文献的比例——在‘复杂网络’领域仅为0.19–0.29,在‘遗传学’领域为0.30–0.47,表明与内容相似性的对齐程度极低。
  • 实际引文列表与引文网络中随机游走访问频率之间的相关性极低(皮尔逊相关系数 r = 0.075),表明作者并未系统性地探索引文网络。
  • 随机游走访问频率与论文下载量之间的相关性也较弱(皮尔逊相关系数 r = 0.165),表明引文网络探索行为与读者行为不一致。
  • 研究结果表明,当前的引文实践并非基于内容相似性或系统性搜索,而更可能受其他非科学因素(如文献的新近性或作者熟悉度)影响。
  • 所提出的虚拟科学计量学框架——结合基于相似性的与基于网络的引文推荐——可减少偏差,并实现跨学科更公平的影响评估。
  • 结果表明,基于文本相似性与引文网络扩散的自动化工具,可帮助作者识别被忽视但高度相关的文献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。