QUICK REVIEW

[논문 리뷰] Popularity of arXiv.org within Computer Science

Charles Sutton, Linan Gong|arXiv (Cornell University)|2017. 10. 14.

Data Quality and Management참고 문헌 8인용 수 24

한 줄 요약

이 연구는 2007년에서 2017년 사이에 63개의 최상위 컴퓨터 과학 컨퍼런스에서의 메타데이터를 분석하여, 컴퓨터 과학 연구자들 사이에서 arXiv.org의 채택 현황을 분석한다. 연구 결과, arXiv 사용률은 2017년 기준으로 1%에서 23%로 급격히 증가했으며, 특히 기계학습과 이론 컴퓨터 과학 분야에서는 60% 이상의 채택률을 보였다. 이는 분야 내에서 사전인용(preprint) 공유와 중심화된 전자인용 저장소의 채택이 점점 더 확산되고 있음을 시사한다.

ABSTRACT

It may seem surprising that, out of all areas of science, computer scientists have been slow to post electronic versions of papers on sites like arXiv.org. Instead, computer scientists have tended to place papers on our individual home pages, but this loses the benefits of aggregation, namely notification and browsing. But this is changing. More and more computer scientists are now using the arXiv. At the same time, there is ongoing discussion and controversy about how prepublication affects peer review, especially for double-blind conferences. This discussion is often carried out with precious little evidence of how popular prepublication is. We measure what percentage of papers in computer science are placed on the arXiv, by cross-referencing published papers in DBLP with e-prints on arXiv. We found: * Usage of arXiv.org has risen dramatically among the most selective conferences in computer science. In 2017, fully 23% of papers had e-prints on arXiv, compared to only 1% ten years ago. * Areas of computer science vary widely in e-print prevalence. In theoretical computer science and machine learning, over 60% of published papers are on arXiv, while other areas are essentially zero. In most areas, arXiv usage is rising. * Many researchers use arXiv for posting preprints. Of the 2017 published papers with arXiv e-prints, 56% were preprints that were posted before or during peer review. Our paper describes these results as well as policy implications for researchers and practitioners.

연구 동기 및 목표

컴퓨터 과학 연구자들 사이에서 arXiv.org 사용 현황을 다양한 분야별로 정량화하는 것.
논문이 심사 이전에 사전인용(preprints)으로 게재되었는지, 또는 수락 후 전자인용(postprints)으로 게재되었는지 판단하는 것.
증가하는 사전인용 문화가 双점검 리뷰(double-blind reviewing) 및 연구 공개 방식의 관행에 미치는 영향을 평가하는 것.
컴퓨터 과학 분야에서 개방형 심사, 사전 공개, 중심화된 저장소의 역할에 대한 현재 진행 중인 논의를 뒷받침하는 것.
컴퓨터 과학 분야의 변화하는 출판 생태계에 대한 데이터 기반 통찰을 제공하는 것.

제안 방법

저자들은 2007년에서 2017년 사이에 가장 선별적인 컴퓨터 과학 컨퍼런스 63개에서 메타데이터를 수집하였다.
각 출판된 논문의 메타데이터를 DOI 및 기타 식별자로 활용하여 arXiv.org와 매칭하여 전자인용(e-print)이 존재하는지 확인하였다.
심사 과정 중 또는 그 이전에 게재된 경우를 사전인용(preprints)으로, 수락 후에 게재된 경우를 후기인용(postprints)으로 분류하였다.
통계적 요약 자료를 활용하여 분야별 및 시간 경과에 따른 arXiv 채택 추세를 분석하였다.
특히 사전인용의 보편화가 이중점검 리뷰의 가능성을 어떻게 위협하는지, 저자 신원 노출 위험을 중심으로 분석하였다.
arXiv, DBLP 및 컨퍼런스 논문집의 기존 데이터를 활용하여 대규모이고 종단적(longitudinal) 분석을 가능하게 하였다.

실험 결과

연구 질문

RQ1최상위 컨퍼런스에서 출판된 컴퓨터 과학 논문 중 얼마나 많은 비율이 arXiv.org에 전자인용 형태로 게재되었는가?
RQ2지난 10년간 다양한 컴퓨터 과학 분야에서 arXiv 채택 현황은 어떻게 변화해 왔는가?
RQ3논문의 56%가 심사 이전 또는 동안 사전인용 형태로 게재되었는가, 아니면 수락 후에 게재되었는가?
RQ4사전인용의 보편화가 컴퓨터 과학 분야에서 이중점검 리뷰의 타당성에 어떤 영향을 미치는가?
RQ5중앙집중형 전자인용 저장소가 연구 공개 및 공동체 규범에 어떤 영향을 미치는가?

주요 결과

2017년 기준으로 가장 선별적인 컴퓨터 과학 컨퍼런스에서 출판된 논문 중 23%가 arXiv.org에 전자인용으로 게재되었으며, 이는 2007년의 1%에서 급격히 증가한 것이다.
이론 컴퓨터 과학 및 기계학습 분야에서는 출판된 논문의 60% 이상이 arXiv 전자인용을 보유하고 있어, 이 분야에서의 채택 수준이 매우 높음을 시사한다.
2017년 arXiv 전자인용을 보유한 논문 중 56%가 심사 과정 중 또는 그 이전에 게재된 사전인용이었다.
대부분의 컴퓨터 과학 분야에서 arXiv 사용률이 증가하고 있으나, 일부 분야에선 여전히 근접한 0% 수준의 채택률을 보이고 있다.
연구 결과는 사전인용이 많은 컴퓨터 과학 분야에서 이미 주요 공개 방식으로 자리 잡고 있음을 시사한다.
본 연구는 사전인용 노출로 인한 저자 신원 노출 위험을 고려해 리뷰 관행을 재정비할 필요가 급박히 필요하다고 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.