[논문 리뷰] Good practices for a literature survey are not followed by authors while preparing scientific manuscripts
이 논문은 저자들이 종종 두 가지 핵심 문헌 조사 관행을 따르지 못함을 밝혀낸다: 내용 유사성 기반 참조 선택과 체계적인 인용 네트워크 검색. arXiv 데이터셋을 대상으로 복잡한 네트워크 모델과 자연어 처리를 사용하여, 인용된 논문과 가장 유사한 작품들 사이의 일관성은 낮았고(일관성 지수 0.19–0.47), 실제 인용과 무작위 보행 기반 인용 네트워크 탐색 간 상관관계는 미미했다(Pearson r = 0.075), 이는 열악한 문헌 조사 관행을 시사한다. 본 연구는 유사성 기반 및 네트워크 기반 인용 추천을 활용하는 '가상의 과학측정학(virtual scientometry)'—과학 분야에서 공정하고 편향이 줄어든 영향 평가를 가능하게 하는 계산 기반 방법—을 제안한다.
The number of citations received by authors in scientific journals has become a major parameter to assess individual researchers and the journals themselves through the impact factor. A fair assessment therefore requires that the criteria for selecting references in a given manuscript should be unbiased with respect to the authors or the journals cited. In this paper, we advocate that authors should follow two mandatory principles to select papers (later reflected in the list of references) while studying the literature for a given research: i) consider similarity of content with the topics investigated, lest very related work should be reproduced or ignored; ii) perform a systematic search over the network of citations including seminal or very related papers. We use formalisms of complex networks for two datasets of papers from the arXiv repository to show that neither of these two criteria is fulfilled in practice.
연구 동기 및 목표
- 저자들이 과학 논문의 참조를 선택할 때 양호한 관행을 따르는지 조사하기 위해.
- 인용 선택이 논문 주제와 내용 유사성에 기반하는지 평가하기 위해.
- 참조를 편성할 때 인용 네트워크 전반에 걸쳐 체계적인 검색을 수행하는지 평가하기 위해.
- 유사성 기반 및 네트워크 기반 인용 추천을 활용하는 계산 기반 프레임워크인 '가상의 과학측정학'을 제안하기 위해.
- 유사성 및 네트워크 확산 지표를 활용해 간과당한 고도로 관련성이 높은 문헌을 식별하는 데 도움이 되는 도구 개발하기 위해.
제안 방법
- 텍스트 전처리 후 인접한 단어들을 연결하여 복잡한 네트워크로 각 논문을 모델링하여 내용 유사도를 계산하기 위해.
- 연구 분야별로 두 가지 네트워크를 구축하기 위해: (1) 인용 네트워크(인용한 논문에서 인용된 논문로 향하는 방향성 간선), 및 (2) 겹침 네트워크(문서 유사도 기반으로 방향 없는 간선).
- 일관성 지수를 계산하기 위해: 데이터셋 내에서 가장 유사한 논문들과 일치하는 참조의 비율을 측정하며, 최대값은 1.0이다.
- 무작위 보행을 통해 인용 네트워크에서의 탐색 행동을 시뮬레이션하여 체계적인 문헌 검색을 모의하기 위해.
- 무작위 보행에서의 방문 빈도를 실제 인용 목록과 논문 다운로드 수와 비교하기 위해 피어슨 상관계수를 사용하기 위해.
- 가상의 인용 시스템을 제안하기 위해: 유사성 임계값 기반으로 참조를 추천하고, 인용 네트워크 내에서의 무작위 보행 빈도를 통해 영향을 평가하기 위해.
실험 결과
연구 질문
- RQ1논문을 준비할 때 저자들이 자신의 분야에서 가장 내용 유사성이 높은 논문을 얼마나 인용하는가?
- RQ2실제 인용 목록과 체계적이고 네트워크 기반의 문헌 탐색 간 상관관계는 어느 정도인가?
- RQ3무작위 보행을 통한 인용 네트워크 방문 빈도는 실제 인용 패턴과 논문 다운로드 수와 얼마나 유사한가?
- RQ4유사성 기반 및 네트워크 기반의 추천 시스템은 과학적 영향 평가의 공정한 대안이 될 수 있는가?
- RQ5열악한 문헌 조사 관행이 인용 편향과 연구 평가에 어떤 영향을 미치는가?
주요 결과
- 일관성 지수—실제로 인용된 논문 중 데이터셋 내에서 가장 유사한 논문들에 해당하는 비율을 측정하는 지표—는 '복잡한 네트워크' 분야에서 0.19–0.29, '유전학' 분야에서 0.30–0.47이었으며, 내용 유사성과의 일치도가 낮음을 시사한다.
- 실제 인용 목록과 인용 네트워크 내 무작위 보행 방문 빈도 간 상관관계는 매우 낮았다(Pearson r = 0.075), 이는 저자들이 인용 네트워크를 체계적으로 탐색하지 않는다는 것을 시사한다.
- 무작위 보행 방문 빈도와 논문 다운로드 수 간 상관관계 역시 약했다(Pearson r = 0.165), 이는 인용 네트워크 탐색이 독자 행동과 일치하지 않는다는 것을 의미한다.
- 본 연구는 현재의 인용 관행이 내용 유사성이나 체계적 검색에 기반하지 않고, 최근성이나 저자에 대한 친밀감과 같은 비과학적 요인에 의해 영향을 받을 가능성이 높다는 것을 입증한다.
- 유사성 기반 및 네트워크 기반 인용 추천을 활용하는 제안된 가상의 과학측정학 프레임워크는 편향을 줄이고 다양한 분야에서 공정한 영향 평가를 가능하게 할 수 있다.
- 결과적으로, 텍스트 유사도와 인용 네트워크 확산 기반의 자동화된 도구는 저자들이 간과한 고도로 관련성이 높은 문헌을 식별하는 데 도움이 될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.