QUICK REVIEW

[论文解读] Reproducibility in Machine Learning for Health

Matthew B. A. McDermott, Shirly Wang|arXiv (Cornell University)|Jul 2, 2019

Machine Learning in Healthcare参考文献 39被引用 29

一句话总结

本文通过引入一个三层次分类法——技术可复现性、统计可复现性和概念可复现性，评估了机器学习在医疗领域（ML4H）的可复现性，并分析了100多篇ML4H论文，揭示了在数据和代码可及性方面与其它机器学习领域相比存在显著差距。本文为研究人员、出版商和数据提供方提出了切实可行的改进建议，包括代码/数据共享、预注册的替代方案、合成数据以及标准化报告。

ABSTRACT

Machine learning algorithms designed to characterize, monitor, and intervene on human health (ML4H) are expected to perform safely and reliably when operating at scale, potentially outside strict human supervision. This requirement warrants a stricter attention to issues of reproducibility than other fields of machine learning. In this work, we conduct a systematic evaluation of over 100 recently published ML4H research papers along several dimensions related to reproducibility. We find that the field of ML4H compares poorly to more established machine learning fields, particularly concerning data and code accessibility. Finally, drawing from success in other fields of science, we propose recommendations to data providers, academic publishers, and the ML4H research community in order to promote reproducible research moving forward.

研究动机与目标

为应对ML4H领域日益严重的可复现性危机，此类问题可能导致结果错误或无法复现，进而影响患者安全和监管决策。
识别ML4H领域在可复现性方面的主要挑战，特别是与更成熟的机器学习子领域相比，数据和代码可及性方面的差距。
提出一个针对ML4H应用的结构化分类法，涵盖技术、统计和概念可复现性三个层面。
通过人工审查100多篇来自ML、NLP、CV和ML4H领域会议的近期研究论文，评估当前ML4H可复现性的现状。
为ML4H社区提出具体、可扩展的改进建议，包括数据标准、预注册的替代方案以及合成数据的使用。

提出的方法

开发了一个三层次可复现性分类法：技术可复现性（相同条件）、统计可复现性（重采样条件）和概念可复现性（概念相同但上下文不同）。
对300多篇ML4H、NLP、CV和通用机器学习论文进行了人工、系统性的文献综述，以评估在数据和代码可及性等维度上的可复现性。
评估了包括数据集和代码发布率、固定训练/测试划分的使用情况，以及超参数和评估流程报告在内的可复现性指标。
提出了包括预注册替代方案、合成数据生成，以及加密或联邦学习在内的解决方案，以应对隐私和访问障碍。
倡导强制要求提供数据/代码可用性声明，并提升报告标准，包括数据清单和规范文档。
建议采用现有的临床数据标准（如OMOP、FHIR），以提升互操作性和概念可复现性。

实验结果

研究问题

RQ1在数据和代码可及性方面，ML4H研究的可复现性相较于其他机器学习子领域如何？
RQ2ML4H研究在多大程度上满足了所提出的分类法中定义的技术、统计和概念可复现性标准？
RQ3ML4H中可复现性的主要障碍是什么，特别是与数据隐私和敏感性相关的问题？
RQ4如何将生物医学科学中的预注册实践适应于ML4H模型开发的探索性本质？
RQ5哪些机构和技术创新措施能够提升ML4H研究的长期可复现性？

主要发现

超过100篇近期发表的ML4H论文在数据和代码可及性方面显著低于NLP和CV领域的水平。
仅有28%的ML4H论文发布了代码，仅15%发布了数据集，而其他机器学习子领域的比例更高。
少于10%的ML4H论文报告了超参数搜索过程或使用了固定的训练/测试划分，这损害了统计可复现性。
大多数ML4H研究缺乏对数据的详细描述，包括偏差信息、缺失数据和数据来源等。
该领域在采用数据标准（如OMOP、FHIR）和报告实践（如数据清单）方面进展滞后，而这些对概念可复现性至关重要。
尽管ML4H应用的后果重大，包括获得FDA认证的工具，但其可复现性实践仍发展不足且不一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。