Skip to main content
QUICK REVIEW

[论文解读] Scientific impact quantity and quality: Analysis of two sources of bibliographic data

Richard K. Belew|ArXiv.org|Apr 11, 2005
Meta-analysis and systematic reviews参考文献 11被引用 58
一句话总结

本文比较了203篇科学出版物在GoogleScholar与Thomson/ISI中的引用次数,发现尽管两者在覆盖范围和索引方法上存在差异,但引用次数之间仍具有较强的关联性(R² = 0.5023)。研究证明,GoogleScholar可作为文献计量影响力分析的可靠、独立数据源,与ISI数据结合使用可增强学术评估的稳健性。

ABSTRACT

Attempts to understand the consequence of any individual scientist's activity within the long-term trajectory of science is one of the most difficult questions within the philosophy of science. Because scientific publications play such as central role in the modern enterprise of science, bibliometric techniques which measure the ``impact'' of an individual publication as a function of the number of citations it receives from subsequent authors have provided some of the most useful empirical data on this question. Until recently, Thompson/ISI has provided the only source of large-scale ``inverted'' bibliographic data of the sort required for impact analysis. In the end of 2004, Google introduced a new service, GoogleScholar, making much of this same data available. Here we analyze 203 publications, collectively cited by more than 4000 other publications. We show surprisingly good agreement between data citation counts provided by the two services. Data quality across the systems is analyzed, and potentially useful complementarities between are considered. The additional robustness offered by multiple sources of such data promises to increase the utility of these measurements as open citation protocols and open access increase their impact on electronic scientific publication practices.

研究动机与目标

  • 评估GoogleScholar的引用次数相对于长期使用的Thomson/ISI数据库的可靠性与一致性。
  • 识别两种书目数据源在不同出版类型和作者个人资料中覆盖范围与数据质量的系统性差异。
  • 评估双源引用数据对学术评估与政策制定中更稳健的科学影响力评估的影响。
  • 检查两种系统共有的和独特的局限性,包括姓名编码问题与引用误分类。
  • 探索开放引用协议与开放获取的潜力,以减少未来文献计量数据收集的挑战。

提出的方法

  • 本研究从一个跨学科系选取六名学者,并以其姓名作为搜索查询,在GoogleScholar与ISI中检索相关被引出版物。
  • 通过人工核对书目引用,解决两种系统中重复或碎片化的记录,将同一出版物的所有变体视为单一实体。
  • 对每个出版物的所有已解析记录进行引用次数聚合,以定义其总影响力,确保在索引差异下保持一致性。
  • 采用皮尔逊相关分析与幂律建模(GS = 3.1718 × ISI^0.6359)对比两种系统间的引用次数。
  • 应用卡方检验评估不同出版类型(如期刊、书籍、会议论文)及作者特定引用分布之间的覆盖差异。
  • 通过出版年份对引用次数与缺失引用进行时间序列分析,以评估随时间推移的覆盖趋势。

实验结果

研究问题

  • RQ1GoogleScholar的引用次数与Thomson/ISI对同一组科学出版物的引用次数在多大程度上一致?
  • RQ2在期刊、书籍和会议论文等不同出版类型中,GoogleScholar与ISI的覆盖范围有何关键差异?
  • RQ3作者姓名格式差异与非ASCII字符在两种系统中对引用索引准确性的影晌有多大?
  • RQ4在某一系统中发现但另一系统未收录的缺失引用,其随时间与出版类型如何分布?
  • RQ5使用双源引用数据对提升科学影响力评估的稳健性有何影响?

主要发现

  • GoogleScholar与ISI的引用次数显示出统计学上显著的相关性(R² = 0.5023,p < 0.005),表明对78个重叠出版物的引用计数具有高度一致性。
  • 两套系统之间的关系符合幂律模型:GS = 3.1718 × ISI^0.6359,表明引用次数存在一致但非线性的缩放关系。
  • GoogleScholar在书籍与会议论文的索引方面优于ISI,而ISI在期刊文章的覆盖方面表现更佳。
  • 13%的出版物在ISI数据库中存在五个或更多条目,表明手动索引存在显著的数据噪声。
  • GoogleScholar对近二十年出版物的覆盖更强,而ISI在较老文献中占主导地位。
  • 两种系统在处理作者姓名中的非ASCII字符方面均存在局限,可能导致误识别与引用错位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。