Skip to main content
QUICK REVIEW

[논문 리뷰] Large coverage fluctuations in Google Scholar: a case study

Alberto Martín‐Martín, Emilio Delgado López‐Cózar|arXiv (Cornell University)|2021. 02. 15.
Data-Driven Disease Surveillance인용 수 3
한 줄 요약

이 연구는 2019년 천문학 및 천체물리학 분야에서 Google Scholar의 커버리지 변동성을 다루며, 주요 출판사에서 출간된 고인용 논문들이 온라인에서 접근 가능함에도 불구하고 색인에서 사라진 현상을 분석한다. 2018~2020년의 종단적 데이터를 바탕으로, 저자들은 2019년에 9개의 핵심 문서에서 인용 수가 40% 감소했으며, 2020년에는 96% 회복된 것을 기록하여 Google Scholar 측의 체계적 색인 오류로 인해 계량적 안정성이 심각하게 훼손된 것으로 밝혀냈다.

ABSTRACT

Unlike other academic bibliographic databases, Google Scholar intentionally operates in a way that does not maintain coverage stability: documents that stop being available to Google Scholar's crawlers are removed from the system. This can also affect Google Scholar's citation graph (citation counts can decrease). Furthermore, because Google Scholar is not transparent about its coverage, the only way to directly observe coverage loss is through regular monitorization of Google Scholar data. Because of this, few studies have empirically documented this phenomenon. This study analyses a large decrease in coverage of documents in the field of Astronomy and Astrophysics that took place in 2019 and its subsequent recovery, using longitudinal data from previous analyses and a new dataset extracted in 2020. Documents from most of the larger publishers in the field disappeared from Google Scholar despite continuing to be available on the Web, which suggests an error on Google Scholar's side. Disappeared documents did not reappear until the following index-wide update, many months after the problem was discovered. The slowness with which Google Scholar is currently able to resolve indexing errors is a clear limitation of the platform both for literature search and bibliometric use cases.

연구 동기 및 목표

  • Google Scholar에서 발생한 대규모이고 사전 통보 없이 이루어진 천문학 및 천체물리학 분야의 커버리지 변동성의 원인과 영향을 조사하기 위해.
  • 시간에 따라 인용 수와 문서 가용성의 변화를 모니터링하여 Google Scholar 색인의 안정성을 평가하기 위해.
  • 커버리지 손실이 연구자 및 기관의 계량적 지표, 특히 인용 수에 어떤 영향을 미치는지 평가하기 위해.
  • 연구 평가 및 체계적 문헌 리뷰에 있어 Google Scholar를 안정적인 데이터 소스로 의존할 경우 발생할 수 있는 위험을 부각하기 위해.

제안 방법

  • 자동화된 추출을 통해 2018년, 2019년, 2020년 세 시점에서 Google Scholar로부터 종단적 데이터 수집.
  • 세 시점 동안의 천문학 및 천체물리학 분야에서 고인용 논문 9편을 식별하고 추적하기 위해.
  • 연도 간 인용 수 비교를 통해 변동성을 탐지하고 복구 패턴을 평가하기 위해.
  • 색인 오류로 인해 영향을 받은 출판사 분석을 위해 인용 문서의 출판사 수준 분석 수행.
  • 색인 기록과 메타데이터를 상호 참조하여 데이터 통합 또는 중복 오류 여부 탐지.
  • 시간에 따라 출판사 간 인용 안정성을 비교하기 위해 로그 변환된 인용 수 분포 사용.

실험 결과

연구 질문

  • RQ12019년 천문학 및 천체물리학 분야에서 Google Scholar의 커버리지 변동성의 규모와 지속 기간은 어떠한가?
  • RQ2주요 출판사에서 출간된 고인용 논문들이 웹에서 접근 가능함에도 불구하고 Google Scholar에서 사라진 이유는 무엇인가?
  • RQ32019년 커버리지 손실 이후 핵심 문서의 인용 수가 어느 정도 회복되었는가?
  • RQ4색인 오류로 인해 가장 큰 영향을 받은 출판사는 누구이며, 인용 손실의 패턴은 어떠한가?
  • RQ5Google Scholar의 색인 정책에 대한 투명성 부족은 계량적 지표의 신뢰성에 어떤 영향을 미치는가?

주요 결과

  • 2019년, 천문학 및 천체물리학 분야에서 고인용 논문 9편에 대한 총 21,907건의 인용 중 40%가 Google Scholar에서 누락되어 인용 수가 크게 감소한 것으로 나타났다.
  • 2020년에는 2018년에 존재했던 인용의 96%가 복귀하여, 사고 이후 색인이 거의 완전히 복구된 것으로 나타났다.
  • Astronomy & Astrophysics를 출판하는 EDP Sciences의 문서가 가장 큰 영향을 받았으며, 추적한 724건의 문서 중 58%가 2019년에 2018년 대비 최소 10건 이상의 인용 수 감소를 보였다.
  • 미국 천문학회(American Astronomical Society)의 문서는 덜 영향을 받았으며, 추적한 2,604건의 문서 중 5%만이 2019년에 10건 이상의 인용 수 감소를 보였다.
  • 문서가 웹에서 이용 가능하지 않아서가 아니라, Google Scholar 측의 색인 오류로 인한 것으로 보이며, 주요 출판사들이 여전히 문서를 호스팅하고 있음을 확인했다.
  • 색인 문제의 해결이 6~9개월에 걸리는 데서, Google Scholar가 계량적 분석 및 문헌 검색 응용 분야에서 핵심적인 제약을 가진다는 점이 드러났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.