Skip to main content
QUICK REVIEW

[论文解读] On the consistency of supervised learning with missing values

Julie Josse, Chen, Jacob M.|arXiv (Cornell University)|Feb 19, 2019
Face and Expression Recognition参考文献 78被引用 61
一句话总结

本文研究监督学习中带缺失值的预测的贝叶斯一致性,显示均值填充可以一致,并提出基于MI和MIA的方法,包括树方法,用于在训练和测试阶段处理缺失数据。

ABSTRACT

In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data, through multiple imputation. Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.

研究动机与目标

  • 激发监督学习中缺失数据的挑战及其对预测准确性的影响。
  • 建立当训练和测试集中存在缺失值时预测的一致性的理论结果。
  • 将基于填充的方法与直接在带缺失值的数据上进行学习进行比较,并分析用于处理缺失的决策树方法。
  • 提出在监督学习中选择缺失数据策略的实际建议,包括对树的 MIA。

提出的方法

  • 将缺失数据形式扩展到带有训练/测试分割的监督学习。
  • 对使用完整数据的最优预测器在测试时进行多重插补来证明贝叶斯一致性结果。
  • 证明学习前的均值填充对监督预测是一致的。
  • 分析带缺失数据的经验风险最小化并推导对基于树的方法的含义(代理变量、默认值、区块传播、MIA 等)。
  • 从理论和经验上比较不同的基于树的缺失值策略。
  • 讨论通过添加缺失性指标(掩码)进行实际增强及其影响。

实验结果

研究问题

  • RQ1在 MAR 下,用完整数据训练的最优预测器在带缺失值的数据上进行评估时仍然贝叶斯一致吗?
  • RQ2简单的均值填充是否足以在带缺失数据的监督学习中实现一致性?
  • RQ3不同的填充和基于树的策略在实现对不完整数据的预测一致性和准确性方面如何比较?
  • RQ4在决策树中引入缺失处理策略(如 MIA)对在 MAR 和 MNAR 下的性能有什么影响?

主要发现

  • 学习前的均值填充可以实现对监督预测的贝叶斯一致性。
  • 在测试时使用对完整数据的贝叶斯一致性预测器的多重插补,在不完整的测试数据上得到贝叶斯一致的预测。
  • 决策树方法能够自然处理缺失值,MIA 在非信息性和信息性缺失方面均具有有利的理论和经验特性。
  • 样本外填充需要对填充模型进行仔细处理以对齐训练/测试分布,但基于 EM 或 MI 的方法在 MAR 下可以提供鲁棒的预测。
  • 在实践中加入缺失指示器(掩码)可能有益,尽管并不总是对参数估计理想。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。