[论文解读] Reproducibility of Machine Learning: Terminology, Recommendations and Open Issues
一个关于AI/ML可重复性的全面综述,澄清术语,整理现有指南,并提出专门化建议,包括生物医学和物理AI领域,以推进可信赖的ML。
Reproducibility is one of the core dimensions that concur to deliver Trustworthy Artificial Intelligence. Broadly speaking, reproducibility can be defined as the possibility to reproduce the same or a similar experiment or method, thereby obtaining the same or similar results as the original scientists. It is an essential ingredient of the scientific method and crucial for gaining trust in relevant claims. A reproducibility crisis has been recently acknowledged by scientists and this seems to affect even more Artificial Intelligence and Machine Learning, due to the complexity of the models at the core of their recent successes. Notwithstanding the recent debate on Artificial Intelligence reproducibility, its practical implementation is still insufficient, also because many technical issues are overlooked. In this survey, we critically review the current literature on the topic and highlight the open issues. Our contribution is three-fold. We propose a concise terminological review of the terms coming into play. We collect and systematize existing recommendations for achieving reproducibility, putting forth the means to comply with them. We identify key elements often overlooked in modern Machine Learning and provide novel recommendations for them. We further specialize these for two critical application domains, namely the biomedical and physical artificial intelligence fields.
研究动机与目标
- 澄清并统一ML/AI中关于可重复性、重复性、再现性及相关概念的术语。
- 系统性地收集并整理从一般到领域特定情境的实现可重复性的现有建议。
- 识别当前指南中的空白与缺失要素,并为生物医学和物理AI情境中的深度学习与ML提出专门化建议。
- 提出实用的可操作性指南并以表格形式总结,帮助研究者和实践者在实现可重复的ML实验中应用。
提出的方法
- 对AI/ML文献及相关领域中与可重复性相关的术语及指南进行系统性文献回顾。
- 建立一个术语图,将术语映射到工作流组件、团队与可重复性研究原因等维度。
- 将一般性建议综合成三张摘要表,并讨论在生物医学与物理AI域中对深度学习与ML的扩展。
- 批判性分析ML可重复性在两大关键应用领域的定制需求与差距。
- 提出新颖的建议与实用考虑,以改善文档、数据、代码和实验的透明度。
实验结果
研究问题
- RQ1在ML/AI中,与可重复性相关的术语区分有哪些?如何实现统一化?
- RQ2实现AI/ML可重复性的当前指南和最佳实践是什么?在现代ML,尤其是深度学习方面存在哪些不足?
- RQ3在将可重复性建议应用于生物医学和物理AI域时存在哪些差距?如何解决?
- RQ4如何将这些建议落地为对研究者和评审者的具体文档与工作流程实践?
主要发现
- 术语大量并行存在(可重复性、再现性、重复性、鲁棒性、泛化性等),在文献中有不同的定义。
- 现有指南按可重复性等级(如R1–R4或Bronze/Silver/Gold)进行区分,基于数据、代码和实验的可获得性,但仍存在不一致之处。
- 来自会议和期刊的指南在深度和广度上各异,有些要求完整环境的再现(容器/虚拟机),有些仅聚焦于数据和代码共享。
- 已有工具与实践,如数据表、模型卡、事实表,用于记录动机、数据来源、模型用途和性能。
- 在针对深度网络、超参数调优、硬件依赖等ML特定复杂性方面,针对可重复性的专业化指导仍存在空缺。
- 本文提供结构化的推荐与新的摘要表,以便将可重复性指导针对生物医学和物理AI应用进行定制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。