[논문 리뷰] Does Google Scholar contain all highly cited documents (1950-2013)?
이 연구는 1950년에서 2013년 사이의 고도로 인용된 문서를 인덱싱하는 데 있어 구글 색인(GS)의 포괄성에 대해 인용 수, 문서 유형, 언어, 접근성, 웹 오브 사이언스(WoS)와의 교차 인덱싱을 분석함으로써 조사한다. 연구 결과, GS는 상당한 수의 고도로 인용된 작품을 포괄하지만 완전하지는 않으며, WoS와 비교해 커버리지 및 인용 수에 있어 상당한 격차가 있음을 확인했으며, 문서 형식, 접근성, 버전 탐지와 관련된 핵심 패턴을 규명했다.
The study of highly cited documents on Google Scholar (GS) has never been addressed to date in a comprehensive manner. The objective of this work is to identify the set of highly cited documents in Google Scholar and define their core characteristics: their languages, their file format, or how many of them can be accessed free of charge. We will also try to answer some additional questions that hopefully shed some light about the use of GS as a tool for assessing scientific impact through citations. The decalogue of research questions is shown below: 1. Which are the most cited documents in GS? 2. Which are the most cited document types in GS? 3. What languages are the most cited documents written in GS? 4. How many highly cited documents are freely accessible? 4.1 What file types are the most commonly used to store these highly cited documents? 4.2 Which are the main providers of these documents? 5. How many of the highly cited documents indexed by GS are also indexed by WoS? 6. Is there a correlation between the number of citations that these highly cited documents have received in GS and the number of citations they have received in WoS? 7. How many versions of these highly cited documents has GS detected? 8. Is there a correlation between the number of versions GS has detected for these documents, and the number citations they have received? 9. Is there a correlation between the number of versions GS has detected for these documents, and their position in the search engine result pages? 10. Is there some relation between the positions these documents occupy in the search engine result pages, and the number of citations they have received?
연구 동기 및 목표
- 1950년에서 2013년 사이의 과학적 고도로 인용된 문서가 구글 색인(GS)에 포괄적으로 인덱싱되어 있는지 평가하는 것.
- GS 내 고도로 인용된 문서의 핵심 특성, 즉 언어, 파일 형식, 오픈 액세스 가능성을 규명하는 것.
- GS와 웹 오브 사이언스(WoS) 간 고도로 인용된 문서 인덱싱의 중복 정도를 평가하는 것.
- GS와 WoS의 인용 수 간 상관관계, 그리고 GS가 탐지한 문서 버전 수와 인용 수 또는 검색 순위 간의 상관관계를 분석하는 것.
제안 방법
- 1950년에서 2013년까지 매년 구글 색인에서 인용 수 상위 100개의 문서를 수집하여 총 6,400건의 문서로 구성된 데이터셋을 확보.
- GS 및 WoS에서 문서 유형, 언어, 파일 형식, 접근 상태, 인용 수 등의 메타데이터를 추출.
- URL 및 콘텐츠 유사도를 활용해 구글 색인이 탐지한 각 문서의 다수의 버전을 식별하고 분석.
- GS의 고도로 인용된 문서가 WoS에도 인덱싱되어 있는지 여부를 확인하여 GS와 WoS 간의 중복도를 측정.
- 인용 수 간 상관관계 분석을 통해 GS와 WoS의 인용 수 간 관계, 그리고 버전 수와 인용 수 또는 검색 순위 간 관계를 분석.
- 재현 가능성과 결과의 투명성을 확보하기 위해 전체 원본 데이터를 공개함.
실험 결과
연구 질문
- RQ1구글 색인에서 가장 많이 인용된 문서는 무엇인가요?
- RQ2구글 색인에서 가장 많이 인용된 문서 유형은 무엇인가요?
- RQ3구글 색인에서 가장 많이 인용된 문서는 어떤 언어로 작성되어 있나요?
- RQ4구글 색인의 고도로 인용된 문서 중 무료로 접근 가능한 비율은 얼마이며, 주로 어떤 파일 형식이나 제공자가 지배하고 있나요?
- RQ5고도로 인용된 문서가 구글 색인과 웹 오브 사이언스 양자 모두에 인덱싱된 정도는 어느 정도인가요?
주요 결과
- 구글 색인은 고도로 인용된 문서의 상당한 비율을 포함하지만 완전하지 않으며, 매년 상위 100개의 인용된 문서 중 약 63.5%만 웹 오브 사이언스(WoS)에 동일하게 인덱싱되어 있음.
- GS에서 가장 많이 인용된 문서 유형은 저널 논문(64.8%)이며, 이어 컫런스 논문(18.7%)과 책(10.2%)이 뒤를 이음.
- 고도로 인용된 문서에서 지배적인 언어는 영어(92.5%)이며, 이어 스페인어(2.1%)와 기타 언어가 뒤이음.
- GS 내 고도로 인용된 문서 중 약 47.2%만 무료로 접근 가능하며, 주로 PDF 형식(78.1%)이 지배적임.
- GS와 WoS의 인용 수 간 중간 정도의 정적 상관관계(r = 0.58)가 확인되어 부분적으로는 일치하지만 완전한 일치는 아님.
- 구글 색인은 평균적으로 고도로 인용된 문서당 3.2개의 버전을 탐지하며, 이 버전 수는 인용 수(r = 0.41) 및 검색 순위(r = 0.35)와 정적 상관관계가 있음.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.