Skip to main content
QUICK REVIEW

[论文解读] Design and Analysis of the NIPS 2016 Review Process

Nihar B. Shah, Behzad Tabibian|arXiv (Cornell University)|Aug 31, 2017
Explainable Artificial Intelligence (XAI)参考文献 16被引用 48
一句话总结

本文利用来自2,425篇投稿、3,242名审稿人和13,674份评审意见的数据,分析了NIPS 2016的同行评审流程,以评估公平性、校准性和效率。本文提出使用序数排名和基于图的审稿人分配方法,以减少偏差并提高一致性,发现审稿人评分存在显著的校准偏差和并列评分,而回复意见对评分影响甚微。

ABSTRACT

Neural Information Processing Systems (NIPS) is a top-tier annual conference in machine learning. The 2016 edition of the conference comprised more than 2,400 paper submissions, 3,000 reviewers, and 8,000 attendees. This represents a growth of nearly 40% in terms of submissions, 96% in terms of reviewers, and over 100% in terms of attendees as compared to the previous year. The massive scale as well as rapid growth of the conference calls for a thorough quality assessment of the peer-review process and novel means of improvement. In this paper, we analyze several aspects of the data collected during the review process, including an experiment investigating the efficacy of collecting ordinal rankings from reviewers. Our goal is to check the soundness of the review process, and provide insights that may be useful in the design of the review process of subsequent conferences.

研究动机与目标

  • 评估NIPS 2016同行评审流程的公平性、一致性和可靠性,应对会议规模快速扩张的挑战。
  • 识别在大规模评审中审稿人行为、评分校准和决策偏差方面的系统性问题。
  • 评估回复意见和讨论对审稿人评分及决策结果的影响。
  • 探索在大规模同行评审中采用序数排名和图论审稿人分配的可行性与优势。
  • 为改进未来会议评审流程提供可操作的见解和开放性问题。

提出的方法

  • 从CMT收集并分析了评审后的数据,包括评分、排名、审稿人评论以及审稿人参与度指标。
  • 应用图论技术建模审稿人-论文关系,并优化审稿人分配。
  • 利用审稿人提供的序数排名数据,检测不一致性和减少并列评分。
  • 比较特邀高级审稿人与志愿审稿人之间的评分分布和方差。
  • 评估回复意见前后审稿人评分的变化,以衡量审稿人对作者反馈的响应程度。
  • 对审稿人行为进行事后分析,包括置信度水平以及参与讨论的情况。

实验结果

研究问题

  • RQ1审稿人对其评分尺度的校准程度如何?这种偏差在多大程度上影响了决策的公平性?
  • RQ2与基数评分相比,序数排名在减少并列评分和检测审稿人不一致性方面表现如何?
  • RQ3回复意见和讨论对审稿人评分的修改有何影响?这种影响是否因审稿人类别而异?
  • RQ4在不同研究领域或审稿人群体之间,是否存在系统性的接受率偏差?
  • RQ5基于图的审稿人分配能否提升评审质量并减少审稿人工作量的不均衡?

主要发现

  • 仅有少数审稿人和领域主席提交了正面的评审意向,表明在评审初期参与度较低。
  • 基于图论的方法能够有效建模审稿人与论文之间的关系,并支持更优的审稿人分配。
  • 审稿人在评分尺度上表现出显著的校准偏差,许多审稿人对差异显著的论文赋予了相同的评分。
  • 序数排名减少了并列评分,并有助于检测评审中的不一致性,表明其可作为基数评分的可行替代方案。
  • 审稿人评分在回复意见后变化极小,表明对作者反馈的响应程度有限。
  • 在不同研究领域之间未观察到接受率的系统性偏差,但注意到审稿人群体在置信度和投入程度上存在差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。