QUICK REVIEW

[论文解读] The Scientific Method in the Science of Machine Learning

Jessica Zosa Forde, Michela Paganini|arXiv (Cornell University)|Apr 24, 2019

Machine Learning and Data Classification参考文献 56被引用 26

一句话总结

本文主张将科学方法——特别是假设构建、统计检验和不确定性估计——整合到机器学习研究中，以提升研究的严谨性、可复现性和可解释性。它提议借鉴物理学的实践，例如控制干扰参数和使用预先注册的假设，以确保研究结论是经验可检验且科学上稳健的，而非仅基于探索性分析。

ABSTRACT

In the quest to align deep learning with the sciences to address calls for rigor, safety, and interpretability in machine learning systems, this contribution identifies key missing pieces: the stages of hypothesis formulation and testing, as well as statistical and systematic uncertainty estimation -- core tenets of the scientific method. This position paper discusses the ways in which contemporary science is conducted in other domains and identifies potentially useful practices. We present a case study from physics and describe how this field has promoted rigor through specific methodological practices, and provide recommendations on how machine learning researchers can adopt these practices into the research ecosystem. We argue that both domain-driven experiments and application-agnostic questions of the inner workings of fundamental building blocks of machine learning models ought to be examined with the tools of the scientific method, to ensure we not only understand effect, but also begin to understand cause, which is the raison d'être of science.

研究动机与目标

为解决机器学习研究中缺乏科学严谨性的问题，特别是缺乏明确的假设构建和统计检验。
通过推广系统化、可证伪的实验，减少对探索性‘试错’的依赖。
通过考虑统计和系统性不确定性，提升机器学习结果的稳健性和长期有效性。
鼓励机器学习社区采纳成熟科学领域（尤其是物理学）的方法论标准。
通过预先注册的研究和负面结果的公开评估，支持建立更具原则性、可验证的研究文化。

提出的方法

在实验前明确提出假设，并从假设中推导出可检验的预测。
强调使用统计方法来估计实验结果中的不确定性，将结果视为随机变量。
引入干扰参数（如优化器、初始化方式和超参数）的概念，这些参数可能干扰性能比较。
建议对系统性不确定性进行建模和控制，以确保对关注参数（如新型激活函数带来的性能提升）具有敏感性。
采用受物理学启发的微扰方法，先分析一阶效应，再建模复杂相互作用（如批量归一化与深度和宽度的关系）。
提出会议采用注册报告模式，即在数据收集前对假设进行评审和接受，以确保方法论的严谨性，无论结果如何。

实验结果

研究问题

RQ1如何通过整合假设检验和不确定性量化，使机器学习研究更具科学严谨性？
RQ2与物理学等成熟科学学科相比，当前机器学习研究在方法论上存在哪些关键差距？
RQ3实验设计中的干扰参数在多大程度上会削弱报告性能提升的统计敏感性？
RQ4预先注册的假设检验在多大程度上能提升机器学习研究结果的可信度和可复现性？
RQ5从探索性研究转向假设驱动的研究，能在多大程度上提升对模型行为和因果关系的理解？

主要发现

当前许多机器学习出版物缺乏明确的假设和统计检验，导致结果可能对所声称的改进不具统计敏感性。
由于超参数和实验设置中的系统性不确定性未受控制，大量最先进成果的宣称可能并不具备对性能提升的统计敏感性。
由于缺乏系统性不确定性的估计，观察到的数据可能与广泛的性能改进（包括零改进）相容。
采用物理学和临床试验中使用的预先注册假设检验，可提升科学诚信并减少发表偏倚。
应用类似微扰的分析方法——即在研究高阶相互作用前先分析一阶效应——可带来对模型组件更系统化的理解。
该领域将受益于包含科学家、科学哲学家和科学史学家的研讨会和会议，以指导方法论改革。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。