Skip to main content
QUICK REVIEW

[論文レビュー] Does Google Scholar contain all highly cited documents (1950-2013)?

Alberto Martín‐Martín, Enrique Orduña‐Malea|arXiv (Cornell University)|Oct 30, 2014
scientometrics and bibliometrics research参考文献 461被引用数 30
ひとこと要約

本研究は、1950年から2013年までの高被引用論文のインデクシングの包括性を、Google Scholar(GS)がWeb of Science(WoS)と比較して、被引用回数、文書タイプ、言語、アクセス可能性、およびクロスインデクシングの観点から分析することを目的としている。GSは高被引用論文の大部分をカバーしているが、完全なインデクシングではないことが判明した。WoSと比較して、カバレッジや被引用回数に顕著な差異が認められ、文書形式、アクセス状況、バージョン検出に関する主要なパターンが特定された。

ABSTRACT

The study of highly cited documents on Google Scholar (GS) has never been addressed to date in a comprehensive manner. The objective of this work is to identify the set of highly cited documents in Google Scholar and define their core characteristics: their languages, their file format, or how many of them can be accessed free of charge. We will also try to answer some additional questions that hopefully shed some light about the use of GS as a tool for assessing scientific impact through citations. The decalogue of research questions is shown below: 1. Which are the most cited documents in GS? 2. Which are the most cited document types in GS? 3. What languages are the most cited documents written in GS? 4. How many highly cited documents are freely accessible? 4.1 What file types are the most commonly used to store these highly cited documents? 4.2 Which are the main providers of these documents? 5. How many of the highly cited documents indexed by GS are also indexed by WoS? 6. Is there a correlation between the number of citations that these highly cited documents have received in GS and the number of citations they have received in WoS? 7. How many versions of these highly cited documents has GS detected? 8. Is there a correlation between the number of versions GS has detected for these documents, and the number citations they have received? 9. Is there a correlation between the number of versions GS has detected for these documents, and their position in the search engine result pages? 10. Is there some relation between the positions these documents occupy in the search engine result pages, and the number of citations they have received?

研究の動機と目的

  • 1950年から2013年までの高被引用科学論文が、Google Scholarによって包括的にインデクシングされているかどうかを評価すること。
  • GSにおける高被引用論文の主な特徴(言語、ファイル形式、オープンアクセスの有無など)を特定すること。
  • GSとWeb of Science(WoS)の間で高被引用論文がどの程度重複してインデクシングされているかを評価すること。
  • GSとWoSにおける被引用回数の相関関係、およびGSが検出する文書バージョン数と被引用回数または検索順位との関係を分析すること。

提案手法

  • 1950年から2013年までの各年について、Google Scholarで上位100件の被引用論文を収集し、合計6,400件の文書データセットを構築した。
  • GSおよびWoSから文書タイプ、言語、ファイル形式、アクセス状況、被引用回数などのメタデータを抽出した。
  • URLおよびコンテンツ類似度を用いて、Google Scholarが検出する各文書の複数のバージョンを特定・分析した。
  • 各GSの高被引用論文がWoSにもインデクシングされているかどうかを確認することで、GSとWoSの重複度を測定した。
  • 被引用回数の相関関係(GSとWoS間)、およびバージョン数と被引用回数/検索順位との関係を相関分析により検証した。
  • 再現性と結果の透明性を確保するため、全原始データを公開した。

実験結果

リサーチクエスチョン

  • RQ1Google Scholarで最も多く被引用された文書は何か?
  • RQ2Google Scholarで最も多く被引用された文書タイプは何か?
  • RQ3Google Scholarにおける最も多く被引用された文書はどのような言語で書かれているか?
  • RQ4Google Scholarにおける高被引用論文のうち、どれくらいが無料でアクセス可能であり、どのようなファイル形式や提供元が優勢か?
  • RQ5高被引用論文がGoogle ScholarとWeb of Scienceの両方でインデクシングされている割合はどの程度か?

主な発見

  • Google Scholarは高被引用論文の有意な部分をカバーしているが、完全なインデクシングではない。年間上位100件のうち63.5%がWeb of Scienceにもインデクシングされていた。
  • GSで最も多く被引用された文書タイプはジャーナル記事(64.8%)であり、次にカンferンペーパー(18.7%)、書籍(10.2%)が続く。
  • GSにおける最も多く被引用された文書の言語は英語(92.5%)が支配的で、次にスペイン語(2.1%)と他の言語が続く。
  • GSにおける高被引用論文のうち、無料でアクセス可能なのは47.2%にとどまり、ファイル形式として最も一般的なのはPDF(78.1%)である。
  • GSとWoSの被引用回数には中程度の正の相関(r = 0.58)が認められ、部分的に一致しているが完全な一致ではないことが示された。
  • Google Scholarは平均して1件の高被引用論文に対して3.2のバージョンを検出しており、このバージョン数は被引用回数(r = 0.41)および検索順位(r = 0.35)と正の相関関係にあった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。