Skip to main content
QUICK REVIEW

[論文レビュー] Large coverage fluctuations in Google Scholar: a case study

Alberto Martín‐Martín, Emilio Delgado López‐Cózar|arXiv (Cornell University)|Feb 15, 2021
Data-Driven Disease Surveillance被引用数 3
ひとこと要約

本研究は、2019年に天文・宇宙物理学分野のGoogleスカラーズのカバレッジに顕著な変動が生じた事象を調査したもので、主要出版者から発行された高被引用論文が、オンラインで依然として利用可能であるにもかかわらずインデックスから消えたことを明らかにした。2018年から2020年までの縦断的データを用いて、著者らは9つの主要な文書の被引用数が2019年に40%減少したことを記録し、2020年には96%の回復を示した。これは、Googleスカラーズ側に根本的なインデックスエラーが存在し、被引用情報の安定性に顕著な影響を与えたことを示している。

ABSTRACT

Unlike other academic bibliographic databases, Google Scholar intentionally operates in a way that does not maintain coverage stability: documents that stop being available to Google Scholar's crawlers are removed from the system. This can also affect Google Scholar's citation graph (citation counts can decrease). Furthermore, because Google Scholar is not transparent about its coverage, the only way to directly observe coverage loss is through regular monitorization of Google Scholar data. Because of this, few studies have empirically documented this phenomenon. This study analyses a large decrease in coverage of documents in the field of Astronomy and Astrophysics that took place in 2019 and its subsequent recovery, using longitudinal data from previous analyses and a new dataset extracted in 2020. Documents from most of the larger publishers in the field disappeared from Google Scholar despite continuing to be available on the Web, which suggests an error on Google Scholar's side. Disappeared documents did not reappear until the following index-wide update, many months after the problem was discovered. The slowness with which Google Scholar is currently able to resolve indexing errors is a clear limitation of the platform both for literature search and bibliometric use cases.

研究の動機と目的

  • Googleスカラーズが天文・宇宙物理学分野に及ぼした大規模かつ予告なしのカバレッジ変動の原因と影響を調査すること。
  • 被引用数と文書の可用性を時間経過とともにモニタリングすることで、Googleスカラーズのインデックスの安定性を評価すること。
  • カバレッジ喪失が研究者や機関の被引用指標、特に被引用数に与える影響を評価すること。
  • 研究評価や体系的文献レビューの文脈で、Googleスカラーズを安定したデータソースとして依存することのリスクを強調すること。

提案手法

  • 2018年、2019年、2020年の3時点における、Googleスカラーズからの自動抽出を用いた縦断的データ収集。
  • 3時点にわたる天文・宇宙物理学分野の9本の高被引用文書の特定と追跡。
  • 年次比較による被引用数の変動を検出および回復パターンを評価。
  • 被引用文書の出版者レベルでの分析により、カバレッジ喪失の影響を最も受けた出版者を特定。
  • 引用記録とメタデータの照合により、データのマージや重複エラーの可能性を特定。
  • 対数変換された被引用数分布を用いて、時間経過に伴う出版者間の被引用安定性を比較。

実験結果

リサーチクエスチョン

  • RQ12019年に天文・宇宙物理学分野のGoogleスカラーズにおけるカバレッジ変動の規模と期間はどの程度であったか?
  • RQ2主要出版者から発行された高被引用論文がウェブ上では依然として利用可能であるにもかかわらず、なぜGoogleスカラーズから消えたのか?
  • RQ32019年のカバレッジ喪失後、主要文書の被引用数はどの程度回復したか?
  • RQ4どの出版者がインデックスエラーの影響を最も受けたのか?また、被引用数喪失のパターンはどのようなものであったか?
  • RQ5Googleスカラーズのインデックス政策に関する透明性の欠如が、被引用指標の信頼性にどのように影響するか?

主な発見

  • 2019年、天文・宇宙物理学分野の9本の高被引用文書に対する21,907件の被引用のうち40%がGoogleスカラーズから欠落しており、被引用数の顕著な減少を示している。
  • 2020年には、2018年に存在した被引用の96%が再び登場し、インデックスの事故後、ほぼ完全な回復が確認された。
  • 『Astronomy & Astrophysics』を発行するEDP Sciencesの文書が最も影響を受けており、724件の追跡対象文書のうち58%が2019年には2018年と比較して少なくとも10件の被引用数減少を示した。
  • アメリカ天文学会(American Astronomical Society)の文書は比較的影響が小さく、2,604件の追跡対象文書のうち5%のみが2019年に10件以上の被引用数減少を示した。
  • 文書がウェブ上で利用可能であることは確認されたため、カバレッジ喪失の原因はGoogleスカラーズ側のインデックスエラーであると示唆された。
  • インデックス問題の解決に6か月から9か月を要したことは、Googleスカラーズが被引用情報や文献検索の応用分野において、重大な限界を有することを強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。