QUICK REVIEW

[论文解读] Opportunities in Machine Learning for Healthcare.

Marzyeh Ghassemi, Tristan Naumann|arXiv (Cornell University)|Jun 1, 2018

Machine Learning in Healthcare被引用 59

一句话总结

本文识别了将机器学习应用于电子健康记录（EHRs）时面临的关键挑战，例如疾病标签质量差、疾病亚型异质性以及健康个体代表性不足等问题，并为机器学习研究人员提出了针对性的机遇，以通过定制化方法论改进临床数据建模与结果预测。

ABSTRACT

Modern electronic health records (EHRs) provide data to answer clinically meaningful questions. The growing data in EHRs makes healthcare ripe for the use of machine learning. However, learning in a clinical setting presents unique challenges that complicate the use of common machine learning methodologies. For example, diseases in EHRs are poorly labeled, conditions can encompass multiple underlying endotypes, and healthy individuals are underrepresented. This article serves as a primer to illuminate these challenges and highlights opportunities for members of the machine learning community to contribute to healthcare.

研究动机与目标

突出将机器学习应用于电子健康记录（EHRs）所面临的独特挑战，包括疾病标签不一致和疾病异质性。
解决EHR数据集中健康个体代表性不足的问题，该问题使模型泛化能力复杂化。
引导机器学习研究人员关注具有临床意义的问题，以改善患者预后。
弥合机器学习方法论与医疗领域真实临床数据复杂性之间的差距。

提出的方法

通过聚焦于鲁棒的表征学习，提出调整机器学习技术以应对EHR中标签质量差的状况。
鼓励开发能够识别单一临床诊断中多种潜在内型（endotypes）的模型。
倡导采用数据增强和合成采样策略，以应对EHR中健康患者记录稀缺的问题。
建议使用弱监督和多任务学习，以在临床注释有限的情况下提升模型性能。
强调在医疗应用中模型设计的可解释性与临床合理性的重要性。
呼吁机器学习研究人员与临床医生合作，使技术解决方案与临床需求保持一致。

实验结果

研究问题

RQ1如何使机器学习模型对电子健康记录中的不良标签具有鲁棒性？
RQ2哪些方法能有效识别EHR数据中单一疾病类别内的多种内型？
RQ3如何训练模型以在EHR数据集中代表性不足的健康人群中实现泛化？
RQ4哪些机器学习技术能提升医疗应用中的临床可解释性与合理性？
RQ5如何优化机器学习研究人员与临床医生之间的协作，以应对现实世界的医疗挑战？

主要发现

EHR中机器学习应用受到不一致且不完整的疾病标签的阻碍，需要新的建模方法。
具有多种潜在生物学亚型（内型）的疾病对标准分类模型构成挑战，亟需更细致的表征学习方法。
EHR数据中健康个体代表性不足限制了模型的泛化能力并加剧了偏差，需要针对性的数据策略。
现有机器学习方法往往未能考虑临床复杂性，因此亟需基于领域知识的算法设计。
机器学习研究人员可通过开发既准确又具有临床可解释性的模型，为该领域做出贡献。
机器学习与临床团队之间的协作式、问题驱动型研究对于应对真实医疗挑战至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。