Skip to main content
QUICK REVIEW

[論文レビュー] A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications

Dongyeop Kang, Waleed Ammar|arXiv (Cornell University)|Apr 25, 2018
Topic Modeling参考文献 11被引用数 32
ひとこと要約

この論文は、ACL、NIPS、ICLRを含むトップクラスのNLP会議からの査読者レビューの公開データセットであるPeerReadを紹介する。14.7K通の論文ドラフトと10.7K通の本文レビューを含む。本研究では、受容予測とアスペクトスコア回帰という2つの新しいNLPタスクを提案し、単純なモデルが受容予測においてベースライン比で最大21%の誤差低減を達成するとともに、『独創性』や『インパクト』といった高分散アスペクトでは平均ベースラインを上回ることを示した。

ABSTRACT

Peer reviewing is a central component in the scientific publishing process. We present the first public dataset of scientific peer reviews available for research purposes (PeerRead v1) providing an opportunity to study this important artifact. The dataset consists of 14.7K paper drafts and the corresponding accept/reject decisions in top-tier venues including ACL, NIPS and ICLR. The dataset also includes 10.7K textual peer reviews written by experts for a subset of the papers. We describe the data collection process and report interesting observed phenomena in the peer reviews. We also propose two novel NLP tasks based on this dataset and provide simple baseline models. In the first task, we show that simple models can predict whether a paper is accepted with up to 21% error reduction compared to the majority baseline. In the second task, we predict the numerical scores of review aspects and show that simple models can outperform the mean baseline for aspects with high variance such as 'originality' and 'impact'.

研究の動機と目的

  • 科学的査読の研究を容易にするために、最初の公開可能な科学的査読レビューのデータセットを構築すること。
  • 科学的出版における査読の質、一貫性、潜在的なバイアスを定量的に分析すること。
  • NLP研究を支援するため、論文の受容予測と特定アスペクトの数値スコア推定という2つの新しいタスクを導入すること。
  • 自動査読生成や意思決定支援などのモデルの学習・評価に役立てるリソースを提供すること。
  • 研究コミュニティが現実の査読データにアクセス可能となることで、科学的評価の透明性と再現可能性を促進すること。

提案手法

  • データセットは、Softconf管理システムを用いた会議(ACL 2017、CoNLL 2016、NIPS 2013–2017)の著者および査読者からの同意を得て収集された。
  • 追加のレビューは、OpenReviewなどの公開ソースからクロールされ、『明確さ』『独創性』『インパクト』などのアスペクトについて数値スコアが付与された。
  • 11,778件のarXiv論文(2007–2017年)のサブセットを用いて、主要な会議で発表された論文を特定し、会議間の整合性を図った。
  • 最終的なデータセットには、受容/拒絶意思決定が付された14.7K通の論文ドラフトと、アスペクトレベルスコアが付与された10.7K通の本文レビューが含まれる。
  • 2つのNLPタスクを定義した:(1) 論文およびレビュー本文に基づく受容の二値分類、(2) 本文的および構造的特徴を用いたアスペクトスコアの多変量回帰。
  • 単純なベースラインモデル(ロジスティック回帰およびフィードフォワードネットワーク)を、付録の有無などの本文特徴およびレビュー内容に基づいて訓練し、結果を予測した。

実験結果

リサーチクエスチョン

  • RQ1トップクラスのNLP会議における受容意思決定と関連する論文およびレビューの主な言語的・構造的特徴は何か?
  • RQ2アスペクトレベルの査読スコア(例:明確さ、独創性)は、全体の推薦スコアおよび受容結果とどのように関係しているか?
  • RQ3単純なNLPモデルが、ベースラインモデルよりも論文受容またはアスペクトスコアをどれほど良く予測できるか?
  • RQ4口頭発表向けに推薦された論文とポスター発表向けに推薦された論文を区別する査読の特徴パターンは検出可能か?
  • RQ5著者の人種的・性的属性や所属機関に関連するバイアスが、査読に顕在化しているか、データセットから検出可能か?

主な発見

  • PeerReadデータセットの4つのセクションにおいて、単純なモデルが受容予測において多数派ベースライン比で最大21%の誤差低減を達成した。
  • アスペクトスコア予測において、『独創性』や『インパクト』のように分散が大きいアスペクトでは、モデルが平均ベースラインを上回った。これは、これらのアスペクトにより予測可能な信号が含まれていることを示している。
  • 論文に付録が存在するかどうかは、受容率の上昇と相関していた。これは構造的特徴が査読者の意思決定に影響を与える可能性を示唆している。
  • 全体の推薦スコアと口頭発表推薦意思決定との間に高い相関が認められた。これは、全体的評価と特定的評価の間で整合性があることを示している。
  • データセットは、査読者が『明確さ』や『技術的質』に対して高いスコアを付ける傾向がある一方で、『独創性』や『インパクト』は分散が大きく、予測がより困難であることを明らかにした。
  • 標準化されたデータ収集および各会議で一貫したラベル付けがなされているため、本データセットは研究間の再現性と公平な比較を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。