[论文解读] The Dependence of Machine Learning on Electronic Medical Record Quality
本研究探讨了电子病历(EMR)质量差异——如训练数据规模、输入类型及药物数据保真度——对预测院内ICU死亡率的机器学习模型性能的影响。基于两家儿童ICU的EMR数据,研究发现尽管循环神经网络(RNN)具备序列处理优势,多层感知机(MLP)在不同患者群体中的泛化能力仍优于RNN。
There is growing interest in applying machine learning methods to Electronic Medical Records (EMR). Across different institutions, however, EMR quality can vary widely. This work investigated the impact of this disparity on the performance of three advanced machine learning algorithms: logistic regression, multilayer perceptron, and recurrent neural network. The EMR disparity was emulated using different permutations of the EMR collected at Children's Hospital Los Angeles (CHLA) Pediatric Intensive Care Unit (PICU) and Cardiothoracic Intensive Care Unit (CTICU). The algorithms were trained using patients from the PICU to predict in-ICU mortality for patients on a held out set of PICU and CTICU patients. The disparate patient populations between the PICU and CTICU provide an estimate of generalization errors across different ICUs. We quantified and evaluated the generalization of these algorithms on varying EMR size, input types, and fidelity of data.
研究动机与目标
- 评估电子病历(EMR)质量差异对危重症环境中机器学习模型性能的影响。
- 评估训练数据规模、输入变量类型及药物数据保真度的差异对模型在不同ICU间泛化能力的影响。
- 比较逻辑回归、多层感知机与循环神经网络模型在预测院内ICU死亡率方面的鲁棒性。
- 确定在EMR特征不同的ICU之间,于一个ICU训练的模型是否能有效泛化至另一ICU。
- 量化内部临床变量与外部临床变量,以及不同药物编码保真度对模型性能的贡献。
提出的方法
- 通过使用洛杉矶儿童医院PICU和CTICU(2002–2016年)的匿名EMR数据,模拟EMR质量差异。
- 通过数据整理(错误修正、变量聚合)、数据旋转(长格式转宽格式)及标准化(生命体征与实验室指标使用z分数,治疗变量使用[0,1]归一化)对EMR进行预处理。
- 对生理变量采用前向填充法填补缺失值,对缺失治疗变量采用零值填补法,标准化确保填补值反映人群均值。
- 将数据划分为训练集(50% PICU)、验证集(25% PICU)和测试集(25% PICU及全部CTICU),以评估跨机构泛化能力。
- 使用受试者工作特征曲线下面积(AUROC)作为主要指标,训练并评估三种模型——逻辑回归、多层感知机与循环神经网络——在院内ICU死亡率预测中的表现。
- 系统性地改变训练数据规模(10%至100%)、输入类型(内部、外部、基础)及药物编码保真度(真实值、二值化、MeSH编码)。
实验结果
研究问题
- RQ1减少训练数据规模对逻辑回归、多层感知机与循环神经网络在预测院内ICU死亡率时的性能有何影响?
- RQ2不同输入类型(内部、外部及组合)如何影响模型性能及其在不同ICU人群中的泛化能力?
- RQ3不同药物数据保真度(真实值、二值化、MeSH编码)对模型预测准确率与鲁棒性有何影响?
- RQ4当从一个ICU(PICU)迁移到另一个ICU(CTICU)且EMR特征不同时,模型性能如何退化?
- RQ5为何尽管具备序列建模能力,循环神经网络在跨ICU泛化中表现不如多层感知机?
主要发现
- 所有模型在训练数据减少时性能均下降,但在仅使用10%训练数据(840例次)时,表现最佳的模型(MLP)在PICU测试集上仍达到0.867的AUROC。
- 当在CTICU人群上测试时,多层感知机的泛化能力显著优于循环神经网络,尽管RNN具备序列处理优势。
- 当使用MeSH编码的药物信息时,RNN在CTICU测试集上的性能下降了5%,表明其对PICU训练数据中的外部变量存在过拟合。
- 从模型输入中移除外部变量仅导致性能轻微下降,表明内部生理与实验室变量对疾病严重程度预测的贡献最大。
- 将真实值药物剂量替换为二值指示变量(存在/不存在)对模型性能影响可忽略,表明仅凭治疗存在与否已能捕捉足够的临床信号。
- RNN在PICU测试集上使用10%数据训练时表现更优,归因于其对PICU治疗模式的过拟合,从而损害了向CTICU人群的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。