[논문 리뷰] About the size of Google Scholar: playing the numbers
이 논문은 2014년 5월 기준으로 Google Scholar의 크기를 네 가지 경험적 방법—카브사 & 길레스의 접근법, 직접 및 비현실적 쿼리 기법, 데이터 기반 추정—을 사용하여 추정한다. 그 결과 중심 추정치로 약 1억 6,000만 건의 문서가 나왔다. 방법론적 일관성 결여에도 불구하고, 연구는 Google이 색인 크기에 대해 투명성 없이 운영하고 있음을 드러내며, 연구자들이 데이터의 완전성과 접근성에 대해 의문을 제기하게 한다.
The emergence of academic search engines (Google Scholar and Microsoft Academic Search essentially) has revived and increased the interest in the size of the academic web, since their aspiration is to index the entirety of current academic knowledge. The search engine functionality and human search patterns lead us to believe, sometimes, that what you see in the search engine's results page is all that really exists. And, even when this is not true, we wonder which information is missing and why. The main objective of this working paper is to calculate the size of Google Scholar at present (May 2014). To do this, we present, apply and discuss up to 4 empirical methods: Khabsa & Giles's method, an estimate based on empirical data, and estimates based on direct queries and absurd queries. The results, despite providing disparate values, place the estimated size of Google Scholar in about 160 million documents. However, the fact that all methods show great inconsistencies, limitations and uncertainties, makes us wonder why Google does not simply provide this information to the scientific community if the company really knows this figure.
연구 동기 및 목표
- 2014년 5월 기준 Google Scholar 색인의 크기를 추정하기.
- 대규모 학술 검색 엔진 색인의 크기를 추정하는 데 사용되는 다양한 경험적 방법의 신뢰성과 한계 평가하기.
- Google Scholar가 학술 탐색의 핵심 역할을 하면서도 인덱스 크기를 공개하지 않는 이유 조사하기.
- 여러 추정 기법 간 결과의 완전성과 일관성 평가하기.
제안 방법
- 색인 크기를 추정하기 위해 쿼리 빈도와 통계 모델링을 사용하는 카브사 & 길레스의 방법 적용.
- 특정 문서 유형(예: 'article', 'thesis')에 대한 Google Scholar 직접 쿼리 사용을 통해 색인 볼륨 유추하기.
- 결과가 기대되지 않는 비현실적인 검색어(즉, 결과가 없을 것으로 예상되는)를 사용해 색인 크기의 하한선을 테스트하고 체계적 편향 탐지하기.
- 학술 자료보관소 및 데이터베이스에서의 알려진 출판 수와 성장 추세를 사용한 경험적 데이터 기반 추정.
- 모든 네 가지 방법 간 결과의 상호 검증을 통해 일관성 평가 및 방법론적 약점 식별하기.
- 오차 분석 및 불확실성 평가를 통합하여 각 추정 기법의 신뢰성 평가하기.
실험 결과
연구 질문
- RQ12014년 5월 기준으로 다수의 독립된 방법을 기반으로 Google Scholar 색인 크기는 얼마로 추정되는가?
- RQ2다양한 추정 기법 간 결과는 얼마나 일관된가? 각 기법의 한계는 무엇인가?
- RQ3Google Scholar가 학술 정보 검색의 핵심 역할을 하면서도 인덱스 크기를 공개하지 않는 이유는 무엇인가?
- RQ4쿼리 기반 기법이 표본 편향이나 알고리즘 필터링으로 인해 진짜 색인 크기를 과소 또는 과대 추정하는 정도는 어느 정도인가?
- RQ5비현실적 쿼리는 Google Scholar 색인의 하한선과 구조적 편향을 탐지하는 데 어떻게 기여하는가?
주요 결과
- 네 가지 추정 기법이 함께 제시한 결과로, 2014년 5월 기준 Google Scholar 색인 크기는 약 1억 6,000만 건으로 추정된다.
- 카브사 & 길레스의 방법은 낮은 추정치를 도출했고, 직접 및 비현실적 쿼리 기법은 더 높고 변동성이 큰 결과를 내어 방법론적 불안정성을 드러냈다.
- 크기의 차이가 있었음에도 불구하고, 모든 기법이 유사한 주요 규모를 지향해 1억 6,000만 건 추정치의 타당성을 강화했다.
- 쿼리 결과의 변동성과 색인 편향으로 인해 기법 간 심각한 일관성 부족과 불확실성이 발견되었다.
- Google이 색인 크기에 대해 투명성 없이 운영하고 있음에 따라, 학술 검색 결과의 신뢰성과 완전성에 대한 우려가 제기된다.
- 저자들은 Google Scholar가 광범위하지만 완전하지 않은 학술 코퍼스를 색인하고 있을 가능성이 높으며, 회사가 색인 크기를 공개하지 않는 것은 학술 재현 가능성과 신뢰도를 떨어뜨린다고 결론 내렸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.