Skip to main content
QUICK REVIEW

[논문 리뷰] Dynamic Extraction of Key Paper from the Cluster Using Variance Values of Cited Literature

Otsuki, Akira|arXiv (Cornell University)|2013. 10. 18.
Data Quality and Management참고 문헌 13인용 수 5
한 줄 요약

이 논문은 인용 문헌의 출판 연도 변동성을 분석하고 이를 수정된 PageRank 알고리즘에 통합함으로써 학술 클러스터에서 핵심 논문을 동적으로 추출하는 방법을 제안한다. 인용 연도 분산을 기반으로 가중치를 적용함으로써, 특히 빠르게 또는 장기간에 걸쳐 인용되는 논문을 더 잘 식별할 수 있으며, 인용 수가 동일한 경우 기존 PageRank보다 핵심 논문을 구분하는 데 뛰어난 성능을 보인다.

ABSTRACT

When looking into recent research trends in the field of academic landscape, citation network analysis is common and automated clustering of many academic papers has been achieved by making good use of various techniques. However, specifying the features of each area identified by automated clustering or dynamically extracted key papers in each research area has not yet been achieved. In this study, therefore, we propose a method for dynamically specifying the key papers in each area identified by clustering. We will investigate variance values of the publication year of the cited literature and calculate each cited paper's importance by applying the variance values to the PageRank algorithm.

연구 동기 및 목표

  • 학술 인용 네트워크에서 유도된 클러스터 내 핵심 논문을 자동으로 식별하는 것을 목적으로 한다.
  • 동일한 인용 수를 가졌지만 인용 시기 패턴이 다른 핵심 논문을 구분하는 데 있어 기존 인용 분석의 한계를 해결하는 것.
  • 인용의 시간적 동적 특성을 학술적 영향의 대체 척도로 포착하는 방법을 개발하는 것.
  • 학술 환경 시각화에서 연구 클러스터에 대한 동적이고 자동화된 해석을 가능하게 하는 것.

제안 방법

  • 출판 데이터베이스로 Web of Science를 사용하고, 예를 들어 'Geosciences, Multidisciplinary'와 같은 키워드 검색어를 적용하여 대상 논문을 추출한다.
  • 각 논문의 인용 참고문헌의 출판 연도 분산을 계산하여 인용의 시간적 산란도를 평가한다.
  • 인용 연도 분산에 기반해 논문에 가중치를 할당하며, 높은 분산은 더 집중적이거나 장기적인 인용 폭발을 나타낸다.
  • 이러한 분산 기반 가중치를 PageRank 알고리즘에 적용하여 수정된 중요도 점수(HAL 점수)를 계산한다.
  • R의 iGraph를 사용해 결과를 시각화하고, 시간 순서대로 정렬된 중요도 점수를 통해 동적 학술 영향을 반영한다.
  • 다양한 검색어(예: 'Geochemistry & Geophysics; Mineralogy')와 클러스터를 대상으로 검증하여 방법의 견고성을 확보한다.

실험 결과

연구 질문

  • RQ1인용 수가 동일한 경우, 인용 연도 분산이 핵심 논문 탐지에 기여하는가?
  • RQ2인용의 시간적 산란이 학술 논문의 인식되는 중요도에 어떤 영향을 미치는가?
  • RQ3분산 기반 가중치가 부여된 PageRank 알고리즘이 연구 클러스터 내 핵심 논문 식별에 기존 PageRank보다 뛰어난가?
  • RQ4제안된 방법은 다양한 연구 분야와 검색 유형에 걸쳐 견고한가?

주요 결과

  • 높은 인용 연도 분산을 보이는 논문(예: BERGER, A1991, 분산 29)은 인용 수가 동일함에도 불구하고 기존 PageRank보다 훨씬 높은 HAL 점수를 기록했다.
  • 인용 수가 거의 동일한 두 논문(예: JOHNSON, JW1992와 ARNOLD, JG1998) 간에 HAL 방법은 인용 시기 패턴에 따라 구분을 내리며, 분산이 더 큰 논문에게 높은 점수를 할당했다.
  • 'Geochemistry & Geophysics; Mineralogy' 검색에서 ROEDER, PL1970(분산 31)과 PEARCE, JA1979(분산 24)는 유사한 인용 수를 가졌음에도 불구하고 HAL 점수가 기존 PageRank보다 높게 나타났다.
  • 이 방법은 초기에 집중적으로 인용되는 논문(예: 일시적으로 다수의 인용을 받는 경우)이나 장기간에 걸쳐 일관된 인용을 받는 논문(예: 수십 년에 걸쳐 안정적인 인용)을 성공적으로 탐지했으며, 이는 기존 PageRank가 이를 구분하지 못하는 데서 비롯된다.
  • 이 방법은 다양한 연구 분야에서 일관성을 보이며, 단일 분야를 초월한 견고성을 확인했다.
  • 시간 순서로 정렬된 중요도 점수를 활용한 시각화는 핵심 논문의 동적 영향을 효과적으로 나타내었으며, 자동화된 클러스터 해석을 지원했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.