Skip to main content
QUICK REVIEW

[论文解读] About the size of Google Scholar: playing the numbers

Enrique Orduña‐Malea, Juan Manuel Ayllón|arXiv (Cornell University)|Jul 23, 2014
scientometrics and bibliometrics research参考文献 45被引用 51
一句话总结

本文使用四种经验方法——Khabsa & Giles 方法、直接查询与荒谬查询技术、基于数据的估算——估算截至2014年5月谷歌学术的规模,得出中心估计值约为1.6亿篇文献。尽管方法论存在不一致之处,该研究凸显了谷歌在索引规模方面缺乏透明度,引发人们对学术数据完整性和研究人员可访问性的质疑。

ABSTRACT

The emergence of academic search engines (Google Scholar and Microsoft Academic Search essentially) has revived and increased the interest in the size of the academic web, since their aspiration is to index the entirety of current academic knowledge. The search engine functionality and human search patterns lead us to believe, sometimes, that what you see in the search engine's results page is all that really exists. And, even when this is not true, we wonder which information is missing and why. The main objective of this working paper is to calculate the size of Google Scholar at present (May 2014). To do this, we present, apply and discuss up to 4 empirical methods: Khabsa & Giles's method, an estimate based on empirical data, and estimates based on direct queries and absurd queries. The results, despite providing disparate values, place the estimated size of Google Scholar in about 160 million documents. However, the fact that all methods show great inconsistencies, limitations and uncertainties, makes us wonder why Google does not simply provide this information to the scientific community if the company really knows this figure.

研究动机与目标

  • 估算截至2014年5月谷歌学术索引规模。
  • 评估不同经验方法在估算大规模学术搜索引擎索引规模时的可靠性与局限性。
  • 探究为何谷歌学术尽管在学术发现中扮演核心角色,却未公开其索引规模。
  • 评估多种估算技术之间结果的完整性和一致性。

提出的方法

  • 应用Khabsa & Giles的方法,该方法利用查询频率与统计建模估算索引规模。
  • 使用对谷歌学术的直接查询,针对特定文献类型(如“article”、“thesis”)以推断索引规模。
  • 采用“荒谬查询”——无预期结果的无意义搜索词——以测试索引规模的下限,并检测系统性偏差。
  • 基于已知的学术存储库与数据库的出版物数量及增长趋势,进行经验数据驱动的估算。
  • 对所有四种方法的结果进行交叉验证,以评估一致性并识别方法论缺陷。
  • 整合误差分析与不确定性评估,以评估每种估算技术的可靠性。

实验结果

研究问题

  • RQ1基于多种独立方法,2014年5月谷歌学术索引规模的估算值是多少?
  • RQ2不同估算技术之间的结果一致性如何?各自的局限性是什么?
  • RQ3为何谷歌学术尽管在学术信息检索中扮演核心角色,却未公开其索引规模?
  • RQ4由于抽样偏差或算法过滤,基于查询的方法在多大程度上会高估或低估真实索引规模?
  • RQ5荒谬查询如何帮助检测谷歌学术索引的下限和结构性偏差?

主要发现

  • 四种估算方法综合表明,截至2014年5月,谷歌学术的索引规模约为1.6亿篇文献。
  • Khabsa & Giles 方法得出较低的估算值,而直接查询与荒谬查询方法则产生更高且更不稳定的估算结果,表明方法论存在不稳定性。
  • 尽管估算值的量级存在差异,但所有方法均指向相近的数量级,强化了1.6亿篇这一估算的合理性。
  • 研究发现,各方法之间存在显著的不一致与不确定性,尤其源于查询结果的波动性与索引偏差。
  • 谷歌在索引规模方面缺乏透明度,引发了人们对学术搜索结果可靠性与完整性的担忧。
  • 作者得出结论:谷歌学术可能索引了庞大但并非完全全面的学术文献库,而该公司对索引规模的沉默,损害了学术研究的可重复性与可信度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。