[論文レビュー] Popularity of arXiv.org within Computer Science
本研究は、10年間にわたり63の主要なコンfereneceのメタデータを分析することで、コンピュータサイエンス分野の研究者におけるarXiv.orgの採用状況を検討した。2017年にはarXivの利用が論文全体の1%から23%に急増しており、特に機械学習および理論的コンピュータサイエンス分野では60%を超える採用率を示しており、分野全体でプリントプレインティングと集中型の電子論文リポジトリへの移行が進んでいることが示唆されている。
It may seem surprising that, out of all areas of science, computer scientists have been slow to post electronic versions of papers on sites like arXiv.org. Instead, computer scientists have tended to place papers on our individual home pages, but this loses the benefits of aggregation, namely notification and browsing. But this is changing. More and more computer scientists are now using the arXiv. At the same time, there is ongoing discussion and controversy about how prepublication affects peer review, especially for double-blind conferences. This discussion is often carried out with precious little evidence of how popular prepublication is. We measure what percentage of papers in computer science are placed on the arXiv, by cross-referencing published papers in DBLP with e-prints on arXiv. We found: * Usage of arXiv.org has risen dramatically among the most selective conferences in computer science. In 2017, fully 23% of papers had e-prints on arXiv, compared to only 1% ten years ago. * Areas of computer science vary widely in e-print prevalence. In theoretical computer science and machine learning, over 60% of published papers are on arXiv, while other areas are essentially zero. In most areas, arXiv usage is rising. * Many researchers use arXiv for posting preprints. Of the 2017 published papers with arXiv e-prints, 56% were preprints that were posted before or during peer review. Our paper describes these results as well as policy implications for researchers and practitioners.
研究の動機と目的
- 異なるサブフィールドにおけるコンピュータサイエンス研究者におけるarXiv.orgの利用状況を定量化すること。
- 論文が査読の前(プリプリント)に投稿されたのか、あるいは受諾後の電子論文(ポストプリント)として投稿されたのかを特定すること。
- 増加するプリント文化が、二重盲検査読と研究発信の慣行に与える影響を評価すること。
- オープン査読、事前公開、およびコンピュータサイエンス分野における中央集権的リポジトリの役割に関する継続的な議論を支援すること。
- コンピュータサイエンス分野における出版エコシステムの変化をデータドリブンな洞察で明らかにすること。
提案手法
- 著者らは2007年から2017年の間、最も選抜的とされる63のコンピュータサイエンス分野の国際会議からメタデータを収集した。
- 各論文のメタデータをDOIやその他の識別子を用いてarXiv.orgと照合し、電子論文が存在するかどうかを特定した。
- 査読中またはその前に入稿された場合はプリプリント、受諾後に投稿された場合はポストプリントとして分類した。
- 統計的要約を用いて、サブフィールドごとおよび時間経過に伴うarXivの採用傾向を分析した。
- 特に著者特定のリスクを伴うプリプリントの普及が、二重盲検査読の実現可能性に与える影響を検討した。
- arXiv、DBLP、および会議の論文集の既存データを活用することで、大規模かつ縦断的な分析を可能にした。
実験結果
リサーチクエスチョン
- RQ1トップクラスのコンfereneceで発表されたコンピュータサイエンス論文のうち、何パーセントがarXiv.orgに電子論文として掲載されたか?
- RQ2過去10年間で、異なるコンピュータサイエンスのサブフィールドにおいてarXivの採用状況はどのように変化したか?
- RQ3論文の多くが査読の前(プリプリント)に投稿されたのか、それとも受諾後に投稿されたのか(ポストプリント)か、その割合はどの程度か?
- RQ4プリプリントの普及は、コンピュータサイエンス分野における二重盲検査読の実現可能性にどのように影響するか?
- RQ5集中型の電子論文リポジトリが、研究発信とコミュニティの慣行に与える影響は何か?
主な発見
- 2017年には、最も選抜的なコンピュータサイエンス分野の会議で発表された論文の23%がarXiv.orgに電子論文として掲載されており、2007年の1%から急増した。
- 理論的コンピュータサイエンスおよび機械学習分野では、発表された論文の60%以上がarXivに電子論文として掲載されており、これらの分野での採用率が非常に高いことが示された。
- 2017年にarXivに電子論文が掲載された論文のうち、56%が査読中またはその前に入稿されたプリプリントであった。
- ほとんどのコンピュータサイエンスのサブフィールドでarXivの利用が増加しているが、一部の分野では依然としてほぼゼロの採用率を示している。
- これらの結果から、プリプリントが多くのコンピュータサイエンス分野で発信の主流となりつつあることが示唆された。
- 本研究は、プリプリントの露出による著者特定のリスクを踏まえ、査読の慣行を改訂する緊急性の高さを浮き彫りにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。