Skip to main content
QUICK REVIEW

[论文解读] Large coverage fluctuations in Google Scholar: a case study

Alberto Martín‐Martín, Emilio Delgado López‐Cózar|arXiv (Cornell University)|Feb 15, 2021
Data-Driven Disease Surveillance被引用 3
一句话总结

本研究调查了2019年谷歌学术在天文学与天体物理学文献领域出现的重大覆盖波动,期间来自主要出版商的高被引文献虽仍可在网络上访问,却从索引中消失。基于2018–2020年的纵向数据,作者记录了九篇关键文献在2019年被引量下降40%,至2020年恢复了96%,表明谷歌学术方面存在系统性索引错误,显著破坏了文献计量稳定性。

ABSTRACT

Unlike other academic bibliographic databases, Google Scholar intentionally operates in a way that does not maintain coverage stability: documents that stop being available to Google Scholar's crawlers are removed from the system. This can also affect Google Scholar's citation graph (citation counts can decrease). Furthermore, because Google Scholar is not transparent about its coverage, the only way to directly observe coverage loss is through regular monitorization of Google Scholar data. Because of this, few studies have empirically documented this phenomenon. This study analyses a large decrease in coverage of documents in the field of Astronomy and Astrophysics that took place in 2019 and its subsequent recovery, using longitudinal data from previous analyses and a new dataset extracted in 2020. Documents from most of the larger publishers in the field disappeared from Google Scholar despite continuing to be available on the Web, which suggests an error on Google Scholar's side. Disappeared documents did not reappear until the following index-wide update, many months after the problem was discovered. The slowness with which Google Scholar is currently able to resolve indexing errors is a clear limitation of the platform both for literature search and bibliometric use cases.

研究动机与目标

  • 调查影响天文学与天体物理学文献的、未经事先通知的大规模、突发性谷歌学术覆盖波动的原因与影响。
  • 通过监测被引次数与文献可获取性随时间的变化,评估谷歌学术索引的稳定性。
  • 评估覆盖丢失对文献计量指标(尤其是被引次数)的影响,特别是对研究人员与机构的影响。
  • 强调依赖谷歌学术作为研究评估与系统性文献综述稳定数据源所面临的风险。

提出的方法

  • 使用自动化提取方法,在2018年、2019年和2020年三个时间点从谷歌学术收集纵向数据。
  • 识别并追踪三组时间点中天文学与天体物理学领域九篇高被引文献的被引情况。
  • 比较各年度的被引次数,以检测波动并评估恢复模式。
  • 对出版商层面的引用文献进行分析,识别受覆盖丢失影响最严重的出版商。
  • 通过与元数据交叉核对,检测潜在的数据合并或重复错误。
  • 使用对数变换的被引次数分布,比较不同出版商在时间维度上的被引稳定性。

实验结果

研究问题

  • RQ12019年,谷歌学术在天文学与天体物理学文献领域的覆盖波动幅度与持续时间如何?
  • RQ2为何来自主要出版商的高被引文献在网页上仍可访问,却从谷歌学术中消失?
  • RQ32019年覆盖丢失后,关键文献的被引次数恢复程度如何?
  • RQ4哪些出版商受索引错误影响最严重?引用丢失呈现出何种模式?
  • RQ5谷歌学术索引政策缺乏透明度,如何影响文献计量指标的可靠性?

主要发现

  • 2019年,九篇天文学与天体物理学高被引文献的21,907次被引中,有40%在谷歌学术中缺失,表明被引次数出现显著下降。
  • 至2020年,2018年被引次数的96%已重新出现,表明在事件发生后索引实现了近乎完全的恢复。
  • EDP Sciences(《天文学与天体物理学》出版商)受影响最严重,其724篇追踪文献中58%在2019年被引次数较2018年至少减少10次。
  • 美国天文学学会的文献受影响较小,其2,604篇追踪文献中仅5%在2019年被引次数减少10次或以上。
  • 覆盖丢失并非由于文献在网页上不可用,因主要出版商持续托管这些文献,表明问题出在谷歌学术的索引机制。
  • 索引问题的解决过程缓慢,耗时6至9个月,凸显了谷歌学术在文献计量与文献检索应用中的关键局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。