Skip to main content
QUICK REVIEW

[论文解读] Missing Data Imputation for Classification Problems

Arkopal Choudhury, Michael R. Kosorok|arXiv (Cornell University)|Feb 25, 2020
Face and Expression Recognition参考文献 49被引用 25
一句话总结

本文提出了一种新颖的类别加权灰k近邻(CGKNN)插补方法,通过引入互信息来优先考虑特征的相关性,并利用灰距离实现对具有缺失值的异质数据的稳健处理。在模拟和真实世界数据集上,该方法在不同缺失率下均优于现有的kNN、MICE和missForest方法,在插补准确率和下游分类性能方面表现更优。

ABSTRACT

Imputation of missing data is a common application in various classification problems where the feature training matrix has missingness. A widely used solution to this imputation problem is based on the lazy learning technique, $k$-nearest neighbor (kNN) approach. However, most of the previous work on missing data does not take into account the presence of the class label in the classification problem. Also, existing kNN imputation methods use variants of Minkowski distance as a measure of distance, which does not work well with heterogeneous data. In this paper, we propose a novel iterative kNN imputation technique based on class weighted grey distance between the missing datum and all the training data. Grey distance works well in heterogeneous data with missing instances. The distance is weighted by Mutual Information (MI) which is a measure of feature relevance between the features and the class label. This ensures that the imputation of the training data is directed towards improving classification performance. This class weighted grey kNN imputation algorithm demonstrates improved performance when compared to other kNN imputation algorithms, as well as standard imputation algorithms such as MICE and missForest, in imputation and classification problems. These problems are based on simulated scenarios and UCI datasets with various rates of missingness.

研究动机与目标

  • 解决现有插补方法在分类问题中插补过程中忽略类别标签信息的局限性。
  • 提升具有缺失值的异质数据的插补准确率,特别是当特征同时包含数值型和类别型时。
  • 开发一种基于k近邻的插补技术,通过互信息引入类别相关性,以提升下游分类性能。
  • 通过使用能更好处理混合数据类型的距离度量(灰距离),降低插补中的方差和偏差。
  • 证明所提出方法在插补误差和分类准确率方面优于标准插补技术(如MICE和missForest)

提出的方法

  • 提出一种基于灰距离作为实例间相似性度量的迭代k近邻插补框架,该度量对异质数据类型具有鲁棒性。
  • 通过引入特征与类别标签之间的互信息(MI),提出类别加权灰距离,以在邻居选择过程中优先考虑相关特征。
  • 在距离计算中应用互信息作为加权因子,以突出对分类最具信息量的特征。
  • 通过在加权灰距离空间中对k个最近邻的值取平均来插补缺失值,k值通过交叉验证选择。
  • 通过迭代更新插补结果,使用优化后的数据持续改进,直至收敛,从而同时提升插补和分类性能。
  • 在插补后的数据上使用朴素贝叶斯分类器评估分类准确率,并在多个数据集和缺失率下进行结果比较。

实验结果

研究问题

  • RQ1在插补过程中引入类别标签信息是否能提升具有缺失特征数据集的分类准确率?
  • RQ2使用互信息加权的灰距离是否优于基于标准Minkowski距离的k近邻插补方法,在异质数据中表现更优?
  • RQ3所提出的CGKNN方法在插补误差和分类性能方面与MICE和missForest相比如何?
  • RQ4该方法在真实世界数据集上能否在不同缺失率(5%、10%、20%)下保持高性能?
  • RQ5该算法的迭代特性是否能有效收敛至稳定插补结果并带来改进的分类表现?

主要发现

  • CGKNN方法在所有测试数据集(Iris、Voting、Hepatitis)中,所有缺失率(5%、10%、20%)下均达到最低的RMSE,优于MICE、missForest及其他kNN变体。
  • 在Iris数据集上,CGKNN在20%缺失率下达到96.7%的分类准确率,显著优于FWGKNN(94.2%)和GKNN(93.8%)。
  • 在20%缺失率下,CGKNN将Hepatitis数据集的RMSE降低至0.1049,而MICE为0.1967,missForest为0.1858。
  • 该方法在分类准确率上表现出快速收敛,性能在迭代过程中迅速稳定,尤其在较低缺失率下。
  • 使用互信息作为加权因子显著提升了插补质量,使模型聚焦于对分类预测最相关的特征。
  • 实证结果表明,CGKNN在插补误差和下游分类准确率方面始终优于当前最先进的插补方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。