QUICK REVIEW

[論文レビュー] About the size of Google Scholar: playing the numbers

Enrique Orduña‐Malea, Juan Manuel Ayllón|arXiv (Cornell University)|Jul 23, 2014

scientometrics and bibliometrics research参考文献 45被引用数 51

ひとこと要約

この論文は、2014年5月時点におけるGoogle Scholarのサイズを、4つの実証的手法—Khabsa & Gilesの手法、直接的・無意味なクエリ手法、およびデータベースに基づく推定—を用いて推定したものである。その中央推定値は約1億6000万件の文書に達する。方法論的な不整合が存在するものの、本研究はGoogleがそのインデックスサイズを公表していないことによる透明性の欠如を浮き彫りにし、研究者にとってのデータの完全性とアクセス可能性に関する懸念を提起している。

ABSTRACT

The emergence of academic search engines (Google Scholar and Microsoft Academic Search essentially) has revived and increased the interest in the size of the academic web, since their aspiration is to index the entirety of current academic knowledge. The search engine functionality and human search patterns lead us to believe, sometimes, that what you see in the search engine's results page is all that really exists. And, even when this is not true, we wonder which information is missing and why. The main objective of this working paper is to calculate the size of Google Scholar at present (May 2014). To do this, we present, apply and discuss up to 4 empirical methods: Khabsa & Giles's method, an estimate based on empirical data, and estimates based on direct queries and absurd queries. The results, despite providing disparate values, place the estimated size of Google Scholar in about 160 million documents. However, the fact that all methods show great inconsistencies, limitations and uncertainties, makes us wonder why Google does not simply provide this information to the scientific community if the company really knows this figure.

研究の動機と目的

2014年5月現在におけるGoogle Scholarのインデックスサイズを推定すること。
大規模な学術検索エンジンのインデックスサイズを推定するための、さまざまな実証的手法の信頼性と限界を評価すること。
Google Scholarが学術的発見の中心的役割を果たしているにもかかわらず、そのインデックスサイズを公表しない理由を調査すること。
複数の推定手法間で結果の完全性と一貫性がどの程度達成されているかを評価すること。

提案手法

インデックスサイズを推定するためのクエリ頻度と統計モデリングを用いるKhabsa & Gilesの手法の適用。
特定の文書タイプ（例：「article」、「thesis」など）に対するGoogle Scholarへの直接クエリを用いて、インデックス容量を推定すること。
意味のない検索語（期待される結果が存在しない）である「無意味なクエリ」を用いて、インデックスサイズの下限値をテストし、体系的なバイアスを特定すること。
学術リポジトリやデータベースからの既知の出版件数と成長トレンドを用いた、実証的データベース推定。
全4つの手法間での結果の妥当性を検証し、一貫性を評価するとともに、方法論的弱みを同定すること。
各推定手法の信頼性を評価するための誤差分析と不確実性評価を統合すること。

実験結果

リサーチクエスチョン

RQ12014年5月現在におけるGoogle Scholarのインデックスサイズは、複数の独立した手法を用いてどの程度推定されるか？
RQ2異なる推定手法間で結果はどの程度一貫しており、それぞれにどのような限界があるか？
RQ3Google Scholarが学術的情報検索の中心的役割を果たしているにもかかわらず、なぜインデックスサイズを公表しないのか？
RQ4クエリベースの手法が、サンプリングバイアスやアルゴリズムフィルタリングのため、真のインデックスサイズを過大または過小に推定する可能性はどの程度か？
RQ5無意味なクエリは、Google Scholarのインデックスにおける下限値と構造的バイアスを検出するためにどのように役立つか？

主な発見

4つの推定手法が総合的に示すところ、2014年5月現在におけるGoogle Scholarのインデックスサイズは約1億6000万件である。
Khabsa & Gilesの手法は低い推定値を示したが、直接的および無意味なクエリ手法はより高く、変動性の大きい結果をもたらした。これは、方法論的不安定性を示している。
大きさの差異はあったものの、すべての手法が同程度のオーダーの大きさを示しており、1億6000万件という推定値の妥当性を裏付けている。
本研究では、クエリ結果の変動性やインデックスバイアスのため、手法間で顕著な不一致と不確実性が生じていることが判明した。
Googleがインデックスサイズについて透明性を欠いていることは、学術検索結果の信頼性と完全性に関する懸念を引き起こしている。
著者らは、Google Scholarが膨大な学術コアをインデックス化しているが、完全な網羅性は持たない可能性が高く、同社がインデックスサイズについて黙秘していることは、学術的再現性と信頼性を損なう要因であると結論づけた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。