[论文解读] Improving Reproducibility in Machine Learning Research (A Report from the NeurIPS 2019 Reproducibility Program)
本论文记录了 NeurIPS 2019 年的可重复性计划,详细介绍了代码提交政策、可重复性挑战以及 ML 可重复性清单,并报告了社区的参与情况及对评审质量的初步影响。
One of the challenges in machine learning research is to ensure that presented and published results are sound and reliable. Reproducibility, that is obtaining similar results as presented in a paper or talk, using the same code and data (when available), is a necessary step to verify the reliability of research findings. Reproducibility is also an important step to promote open and accessible research, thereby allowing the scientific community to quickly integrate new findings and convert ideas to practice. Reproducibility also promotes the use of robust experimental workflows, which potentially reduce unintentional errors. In 2019, the Neural Information Processing Systems (NeurIPS) conference, the premier international conference for research in machine learning, introduced a reproducibility program, designed to improve the standards across the community for how we conduct, communicate, and evaluate machine learning research. The program contained three components: a code submission policy, a community-wide reproducibility challenge, and the inclusion of the Machine Learning Reproducibility checklist as part of the paper submission process. In this paper, we describe each of these components, how it was deployed, as well as what we were able to learn from this initiative.
研究动机与目标
- 通过鼓励在机器学习论文旁边共享代码、数据和工件来促进透明度。
- 评估可重复性实践对论文质量和评审体验的影响。
- 探索社区对可重复性挑战与清单的参与情况。
- 提供指南,以推动可重复性实践在更多 ML 领域场景中的广泛采用。
提出的方法
- 描述 NeurIPS 2019 可重复性计划的三个组成部分:代码提交政策、可重复性挑战和 ML 可重复性清单。
- 在初始提交和最终提交阶段实施清单,以分析答案的变化。
- 使用 OpenReview 和公开的可重复性报告来促进透明度和复制。
- 分析评审者对代码和清单回答的参与情况,以及与之相关的论文结果。
- 比较不同会议的代码可用性和接受率,以提供对政策效果的背景说明。
实验结果
研究问题
- RQ1代码提交政策对评审行为和论文接受度的影响是什么?
- RQ2参与可重复性挑战是否会增加复现努力和透明度?
- RQ3ML 可重复性清单对作者和评审者有多大用处,以及它是否与论文质量相关?
- RQ4在 ML 领域场合采纳可重复性实践的更广泛影响是什么?
主要发现
- 直至最终提交阶段,代码提交参与度上升到约 75%,评审者在有代码时经常查阅。
- 查阅或获得代码的评审者倾向于给论文打出更高分数(统计学相关性)。
- 可重复性挑战的参与和报告持续增长,在 NeurIPS 2019 中有 173 篇论文在 73 个机构参与复现。
- 清单回答显示大约三分之一的评审者认为有用,且有用性与论文分数更高和评审者信心提升相关。
- 总体上会议投稿数量增加(约 40%),这表明可重复性倡议并未削弱兴趣。
- 相当大比例的作者在提交或最终提交阶段提供了代码,表明对工件的开放性在增强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。