[论文解读] A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications
本文介绍了PeerRead,这是首个公开可用的顶级NLP会议(ACL、NIPS、ICLR)同行评审数据集,包含14.7K篇论文稿件和10.7K份文本评审。该研究提出了两项新颖的NLP任务——接受预测与方面得分回归,表明简单模型在接受预测任务上的误差较基线降低最高达21%,在‘原创性’和‘影响力’等高方差方面上也优于均值基线。
Peer reviewing is a central component in the scientific publishing process. We present the first public dataset of scientific peer reviews available for research purposes (PeerRead v1) providing an opportunity to study this important artifact. The dataset consists of 14.7K paper drafts and the corresponding accept/reject decisions in top-tier venues including ACL, NIPS and ICLR. The dataset also includes 10.7K textual peer reviews written by experts for a subset of the papers. We describe the data collection process and report interesting observed phenomena in the peer reviews. We also propose two novel NLP tasks based on this dataset and provide simple baseline models. In the first task, we show that simple models can predict whether a paper is accepted with up to 21% error reduction compared to the majority baseline. In the second task, we predict the numerical scores of review aspects and show that simple models can outperform the mean baseline for aspects with high variance such as 'originality' and 'impact'.
研究动机与目标
- 通过创建首个公开可用的科学同行评审数据集,降低研究同行评审的门槛。
- 通过实现对评审质量、一致性和科学出版中潜在偏见的定量分析。
- 通过引入两项新任务支持NLP研究:预测论文接受与否,以及估算特定方面的数值评审得分。
- 为训练和评估辅助同行评审的模型(如自动评审生成或决策支持)提供资源。
- 通过向研究社区公开真实世界的同行评审数据,促进科学评估的透明度与可复现性。
提出的方法
- 数据集通过使用Softconf管理系统的会议中作者和评审的自愿参与方式收集,涵盖ACL 2017、CoNLL 2016以及NIPS 2013–2017。
- 额外的评审数据通过公开来源(如OpenReview)爬取,并为‘清晰度’、‘原创性’和‘影响力’等方面标注了数值分数。
- 使用2007–2017年间11,778篇arXiv论文的子集,识别出后续发表于主要会议的论文,实现跨会议的对齐。
- 最终数据集包含14.7K篇带有接受/拒绝决策的论文稿件,以及10.7K份带有方面级评分的完整文本评审。
- 定义了两项NLP任务:(1) 基于论文和评审文本内容的二分类接受预测;(2) 利用文本和结构特征进行方面得分的多变量回归。
- 训练了简单的基线模型——逻辑回归和前馈神经网络——基于文本特征(如附录的存在)和评审内容来预测结果。
实验结果
研究问题
- RQ1在顶级NLP会议中,哪些语言和结构特征与论文接受决定相关?
- RQ2方面级评审得分(如清晰度、原创性)如何与整体推荐和接受结果相关联?
- RQ3简单NLP模型在多大程度上能比基线模型更优地预测论文接受与否或方面得分?
- RQ4同行评审中是否存在可检测的模式,以区分被推荐为口头报告与海报展示的论文?
- RQ5该数据集能否揭示同行评审中的潜在偏见,例如与作者人口统计特征或机构隶属关系相关的偏见?
主要发现
- 在PeerRead数据集的四个部分中,简单模型在预测论文接受与否时,误差较多数基线最高降低21%。
- 在方面得分预测方面,模型在方差较高的方面(如‘原创性’和‘影响力’)上优于均值基线,表明这些方面携带了更具可预测性的信号。
- 论文中存在附录与更高的接受率相关,表明结构特征会影响评审决策。
- 整体推荐得分与推荐口头报告的决定之间存在高度相关性,表明整体判断与具体评审判断保持一致。
- 该数据集显示,评审者通常对‘清晰度’和‘技术质量’打高分,但‘原创性’和‘影响力’的得分方差更大,使其更难预测。
- 该数据集支持研究间的可复现与公平比较,具备标准化的数据收集方式和跨会议一致的标注。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。