QUICK REVIEW
[论文解读] A Step Toward Quantifying Independently Reproducible Machine Learning Research
Edward Raff|arXiv (Cornell University)|Sep 14, 2019
Scientific Computing and Data Management被引用 64
一句话总结
该论文实证研究独立可重复性,通过在没有作者代码的情况下重新实现255篇ML论文(2012–2017),发现63.5%的可重复,并识别与成功相关的显著论文特征。
ABSTRACT
What makes a paper independently reproducible? Debates on reproducibility center around intuition or assumptions but lack empirical results. Our field focuses on releasing code, which is important, but is not sufficient for determining reproducibility. We take the first step toward a quantifiable answer by manually attempting to implement 255 papers published from 1984 until 2017, recording features of each paper, and performing statistical analysis of the results. For each paper, we did not look at the authors code, if released, in order to prevent bias toward discrepancies between code and paper.
研究动机与目标
- 在不使用作者代码的前提下,尝试独立重新实现来量化ML论文的独立可重复性。
- 编目并分析26个论文特征,以确定它们与可重复性的关系。
- 使用统计检验来识别哪些特征对独立可重复性有显著影响。
- 提供洞见以改进机器学习/人工智能领域论文的表达与可重复性实践。
- 讨论研究局限性以及可重复性研究的方法改进方向。
提出的方法
- 由独立复现者对255篇论文进行人工复现尝试(首次实现尝试时间为2012–2017),不使用作者代码。
- 可重复性的定义:通过独立编写、使用标准库的代码再现论文大多数结论(75%及以上)。
- 收集数据:26个论文特征(来自正文,不含附录),包括客观指标和定性评估。
- 使用非参数检验的统计分析:数值特征采用 Mann–Whitney U;类别特征采用带连续性校正的卡方检验;对于类似方差分析的分析,使用 Kruskal–Wallis 和 Dunn 检验。
- 显著性水平设定为 alpha ≤ 0.05,结果汇总在表中;讨论潜在偏差和局限性。
- 对论文的严格性(理论、经验、平衡)和可读性(低/一般/良好/优秀)进行分类,以评估与可重复性的关系。
实验结果
研究问题
- RQ1在机器学习研究中,哪些论文特征与独立可重复性显著相关?
- RQ2发表年份或首次尝试复现的年份是否与可重复性成功相关?
- RQ3可读性、算法难度以及伪代码的存在与可重复性结果之间有何关系?
- RQ4报告的超参数、计算需求和数据可用性对独立可重复性有何影响?
- RQ5主要主题如何影响跨ML论文的独立可重复性的可能性?
主要发现
- 255篇论文中有63.5%可以独立复现(162篇已复制,93篇未复制)。
- 有十个变量与可重复性显著相关;可读性具有最强的经验相关性。
- 发表年份和首次尝试年份与可重复性无相关,表明可重复性不存在简单的时间趋势。
- 指定的超参数、伪代码、所需计算、计算资源(GPU/集群)显示显著性,而代码可用性在本研究中未显示显著影响。
- 更多表格和显式超参数报告与可重复性呈正相关;每页面更多的方程式与可重复性呈负相关。
- 作者回答论文相关问题对复现成功具有高度预测力(52%有回复;26篇中的22次复现;24次中无回复的只有1次)。
- 在本研究中,经验性或平衡型论文的平均再现效果优于纯理论论文。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。