[논문 리뷰] Scientific impact quantity and quality: Analysis of two sources of bibliographic data
이 논문은 203편의 과학적 논문에 대해 GoogleScholar과 Thomson/ISI의 인용 수를 비교하여, 커버리지 및 인덱싱 방법의 차이에도 불구하고 두 데이터 소스 간에 강한 상관관계(R² = 0.5023)를 발견하였다. 이는 GoogleScholar이 독립적인 데이터 소스로서 신뢰할 수 있으며, 기존의 ISI 데이터와 함께 사용할 경우 역학적 영향 평가의 정교함을 높일 수 있음을 보여준다.
Attempts to understand the consequence of any individual scientist's activity within the long-term trajectory of science is one of the most difficult questions within the philosophy of science. Because scientific publications play such as central role in the modern enterprise of science, bibliometric techniques which measure the ``impact'' of an individual publication as a function of the number of citations it receives from subsequent authors have provided some of the most useful empirical data on this question. Until recently, Thompson/ISI has provided the only source of large-scale ``inverted'' bibliographic data of the sort required for impact analysis. In the end of 2004, Google introduced a new service, GoogleScholar, making much of this same data available. Here we analyze 203 publications, collectively cited by more than 4000 other publications. We show surprisingly good agreement between data citation counts provided by the two services. Data quality across the systems is analyzed, and potentially useful complementarities between are considered. The additional robustness offered by multiple sources of such data promises to increase the utility of these measurements as open citation protocols and open access increase their impact on electronic scientific publication practices.
연구 동기 및 목표
- GoogleScholar의 인용 수가 오랫동안 정립된 Thomson/ISI 데이터베이스와 비교할 때 신뢰성과 일관성이 있는지 평가하기 위해.
- 다양한 논문 유형과 저자 프로필에 걸쳐 두 문헌 기반 데이터 소스 간의 커버리지 및 데이터 품질의 체계적 차이를 규명하기 위해.
- 학술 평가 및 정책 수립에서 더 견고한 과학적 영향 평가를 위해 이중 데이터 소스 인용 데이터의 의미를 평가하기 위해.
- 두 시스템이 공통으로 가지는 제한 사항, 예를 들어 이름 인코딩 문제와 인용 오분류를 분석하기 위해.
- 오픈 인용 프로토콜과 오픈 액세스의 잠재력을 탐색하여 향후 문헌정보학 분야의 데이터 수집 과제를 줄일 수 있는지 검토하기 위해.
제안 방법
- 연구는 한 개의 다학제적 학과에서 6명의 학자를 선정하여, 그들의 이름을 GoogleScholar과 ISI에서 검색 쿼리로 사용하여 인용된 논문을 확보하였다.
- 두 시스템 간의 중복 또는 분할된 기록을 해결하기 위해 수작업으로 문헌 기록을 정리하였으며, 동일한 논문의 모든 변형을 하나의 실체로 간주하였다.
- 각 논문의 총 영향력을 정의하기 위해, 모든 해결된 기록의 인용 수를 집계하여, 인덱싱 불일치에도 불구하고 일관성을 확보하였다.
- 피어슨 상관계수와 힘법 모델링(GS = 3.1718 × ISI^0.6359)을 포함한 통계 분석을 통해 두 시스템 간의 인용 수를 비교하였다.
- 카이제곱 검정을 적용하여, 저널, 책, 컫퍼런스와 같은 논문 유형과 저자별 인용 분포 간의 커버리지 차이를 평가하였다.
- 논문 출판 연도별로 인용 수와 누락된 인용 수의 시간적 분석을 수행하여, 시간에 따른 커버리지 추세를 평가하였다.
실험 결과
연구 질문
- RQ1GoogleScholar의 인용 수가 동일한 과학적 논문 집합에 대해 Thomson/ISI의 인용 수와 얼마나 잘 일치하는가?
- RQ2저널, 책, 컨퍼런스 프로ceedings와 같은 다양한 논문 유형에서 GoogleScholar와 ISI 간의 커버리지에 어떤 주요 차이가 있는가?
- RQ3저자 이름 형식의 변형과 비-ASCII 문자의 변화가 두 시스템의 인용 인덱싱 정확도에 어떤 영향을 미치는가?
- RQ4한 시스템에서 발견되지만 다른 시스템에서는 발견되지 않는 누락된 인용 수는 시간과 논문 유형에 따라 어떻게 분포하는가?
- RQ5이중 데이터 소스 인용 데이터를 사용할 경우 과학적 영향 평가의 견고성 향상에 어떤 의미가 있는가?
주요 결과
- GoogleScholar과 ISI의 인용 수는 통계적으로 유의미한 상관관계를 보였다(R² = 0.5023, p < 0.005), 이는 78개의 중복 논문에 대해 강한 일치를 의미한다.
- 두 시스템 간의 관계는 힘법 모델(GS = 3.1718 × ISI^0.6359)을 따르며, 이는 일관되지만 비선형적인 인용 수 스케일링을 시사한다.
- GoogleScholar은 책과 컨퍼런스 프로ceedings의 인덱싱에서 ISI를 능가했으나, ISI는 저널 논문의 커버리지가 더 우수했다.
- 13%의 논문에서 ISI 데이터베이스에 다섯 개 이상의 항목이 존재하여 인용 분할이 발생했으며, 이는 수작업 인덱싱에서의 심각한 데이터 노이즈를 시사한다.
- GoogleScholar은 최근 20년 이내의 논문에 대해 더 강한 커버리지 보유를 보였고, 반면 ISI는 오래된 논문에 더 강력한 커버리지 보유를 보였다.
- 두 시스템 모두 저자 이름의 비-ASCII 문자 처리에 한계를 보였으며, 이는 잘못된 신원 식별과 인용 오기입의 위험을 초래할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.