[论文解读] Classification of datasets with imputed missing values: does imputation quality matter?
本文研究了数据插补质量是否影响机器学习中的下游分类性能。提出了一类基于切片Wasserstein距离的新颖差异性评分,以更准确地评估插补的保真度,结果表明传统指标(如RMSE)难以预测模型性能。令人惊讶的是,即使数据插补质量较差,仍能训练出高性能分类器,导致虚假特征重要性分配,降低模型可解释性。
BACKGROUND: Classifying samples in incomplete datasets is a common aim for machine learning practitioners, but is non-trivial. Missing data is found in most real-world datasets and these missing values are typically imputed using established methods, followed by classification of the now complete samples. The focus of the machine learning researcher is to optimise the classifier's performance. METHODS: We utilise three simulated and three real-world clinical datasets with different feature types and missingness patterns. Initially, we evaluate how the downstream classifier performance depends on the choice of classifier and imputation methods. We employ ANOVA to quantitatively evaluate how the choice of missingness rate, imputation method, and classifier method influences the performance. Additionally, we compare commonly used methods for assessing imputation quality and introduce a class of discrepancy scores based on the sliced Wasserstein distance. We also assess the stability of the imputations and the interpretability of model built on the imputed data. RESULTS: The performance of the classifier is most affected by the percentage of missingness in the test data, with a considerable performance decline observed as the test missingness rate increases. We also show that the commonly used measures for assessing imputation quality tend to lead to imputed data which poorly matches the underlying data distribution, whereas our new class of discrepancy scores performs much better on this measure. Furthermore, we show that the interpretability of classifier models trained using poorly imputed data is compromised. CONCLUSIONS: It is imperative to consider the quality of the imputation when performing downstream classification as the effects on the classifier can be considerable.
研究动机与目标
- 调查数据插补质量是否影响机器学习中下游分类性能。
- 评估标准插补质量指标(如RMSE、MAE和R²)在反映真实数据分布保真度方面的局限性。
- 开发并验证一类基于切片Wasserstein距离的新颖差异性评分,以更准确地评估插补质量。
- 研究插补质量与模型可解释性之间的关联,特别是虚假特征重要性分配的问题。
- 提供一个公开可用的代码库,以支持插补与分类流程的可复现基准测试。
提出的方法
- 提出一类受切片Wasserstein距离启发的新颖差异性评分,用于评估插补数据在多大程度上重建了整体特征分布。
- 采用多因素方差分析(ANOVA)量化插补方法、分类器选择和缺失率对下游分类AUC的影响。
- 使用合成数据和真实世界临床数据集(乳腺癌、MIMIC-III、NHSX COVID-19、模拟数据)并控制缺失模式,评估不同插补方法。
- 结合标准指标(RMSE、MAE、R²)与新型分布差异性评分,跨方法比较插补质量。
- 利用SHAP值开展可解释性分析,评估在插补数据上训练的模型中的特征重要性。
- 发布公开代码库与基准测试框架,以支持插补与分类性能的可复现评估。
实验结果
研究问题
- RQ1在不同数据集和缺失率下,插补方法的选择如何影响下游分类性能?
- RQ2标准插补质量指标(如RMSE、MAE)与实际下游分类性能的相关性有多大?
- RQ3基于切片Wasserstein距离的新颖差异性评分是否能比现有指标更好地捕捉插补质量?
- RQ4插补质量差是否会导致训练分类器中出现误导性或虚假的特征重要性?
- RQ5基于深度学习的插补方法(如GAIN、MIWAE)在多次运行中是否稳定,其稳定性如何影响性能?
主要发现
- 所提出的基于切片Wasserstein距离的差异性评分与下游分类性能的相关性显著强于传统指标(如RMSE或MAE)。
- 尽管插补质量较差,XGBoost和神经网络等高性能分类器仍能实现高AUC(例如在模拟数据集上最高达0.88),表明其对噪声具有鲁棒性。
- 包含神经网络组件的插补方法(如GAIN、MIWAE)在多次运行中表现出较高变异性,提示其易受局部极小值影响。
- 在质量较差的插补数据上训练的分类器会为某些特征分配虚假的重要程度,从而损害模型的可解释性与可信度。
- 标准指标(如RMSE和MAE)与下游性能无关,而分布差异性评分(如特征级KL、KS、Wasserstein)则表现出显著相关性。
- 插补方法与分类器选择之间的交互作用显著影响性能,NGBoost和XGBoost在高质量插补数据上表现优异,尤其在使用MIWAE和MICE时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。