Skip to main content
QUICK REVIEW

[論文レビュー] Missing Data Imputation for Classification Problems

Arkopal Choudhury, Michael R. Kosorok|arXiv (Cornell University)|Feb 25, 2020
Face and Expression Recognition参考文献 49被引用数 25
ひとこと要約

本稿では、相互情報量を用いて特徴量の関連性を優先し、グレイ距離を用いて多様なデータに対してロバストに耐性を持つ、新たなクラス重み付きグレイk近傍法(CGKNN)補完手法を提案する。この手法は、欠損値を有する多様なデータセット(シミュレーションおよび実世界データ)において、従来のkNN、MICE、missForest手法と比較して、補完精度および下流分類性能の両面で優れている。

ABSTRACT

Imputation of missing data is a common application in various classification problems where the feature training matrix has missingness. A widely used solution to this imputation problem is based on the lazy learning technique, $k$-nearest neighbor (kNN) approach. However, most of the previous work on missing data does not take into account the presence of the class label in the classification problem. Also, existing kNN imputation methods use variants of Minkowski distance as a measure of distance, which does not work well with heterogeneous data. In this paper, we propose a novel iterative kNN imputation technique based on class weighted grey distance between the missing datum and all the training data. Grey distance works well in heterogeneous data with missing instances. The distance is weighted by Mutual Information (MI) which is a measure of feature relevance between the features and the class label. This ensures that the imputation of the training data is directed towards improving classification performance. This class weighted grey kNN imputation algorithm demonstrates improved performance when compared to other kNN imputation algorithms, as well as standard imputation algorithms such as MICE and missForest, in imputation and classification problems. These problems are based on simulated scenarios and UCI datasets with various rates of missingness.

研究の動機と目的

  • 分類問題における補完処理でクラスラベル情報を無視する従来の補完手法の限界を是正すること。
  • 特に数値変数とカテゴリカル変数が混在する状況において、欠損値を有する多様なデータの補完精度を向上させること。
  • 相互情報量によるクラス関連性の統合を通じて、kNNに基づく補完手法が下流分類性能を向上させること。
  • 従来のミンコフスキー距離よりも混合データ型をより適切に扱える距離尺度(グレイ距離)を用いることで、補完の分散とバイアスを低減すること。
  • MICE や missForest といった標準的手法と比較して、補完誤差および分類精度の両面で本手法の優位性を示すこと。

提案手法

  • インスタンス間の類似度としてグレイ距離を用いる反復的kNN補完フレームワークを提案し、多様なデータタイプに対してロバストである。
  • 特徴量とクラスラベル間の相互情報量(MI)を組み込むことで、近傍選択時に関連する特徴量を優先するクラス重み付きグレイ距離を導入する。
  • 距離計算において相互情報量を重み因子として適用し、分類に最も有益な特徴量を強調する。
  • 重み付きグレイ距離空間におけるk個の近傍の平均値を用いて欠損値を補完し、kの値は交差検証により選定する。
  • 収束するまで、改良されたデータを用いて反復的に補完を更新することで、補完および分類性能の両方を向上させる。
  • 補完データに対してナイーブベイズ分類器を適用し、複数のデータセットおよび欠損率における分類精度を評価する。

実験結果

リサーチクエスチョン

  • RQ1補完処理中にクラスラベル情報を組み込むことで、欠損特徴量を有するデータセットにおける分類精度が向上するか?
  • RQ2相互情報量重み付きグレイ距離を用いることで、標準的なミンコフスキー距離に基づくkNN補完手法と比較して、多様なデータにおいて優れた性能を発揮するか?
  • RQ3CGKNN手法は、MICE や missForest と比較して、補完誤差および分類性能の両面で優れているか?
  • RQ4本手法は、実世界データセットにおける欠損率が5%、10%、20%というさまざまな水準でも高い性能を維持できるか?
  • RQ5反復的性質を持つアルゴリズムが、安定した補完結果および向上した分類結果に収束するか?

主な発見

  • CGKNN手法は、全テストデータセット(Iris、Voting、Hepatitis)において、あらゆる欠損率(5%、10%、20%)で最小のRMSEを達成し、MICE、missForest、その他のkNN変種を上回った。
  • Irisデータセットでは、20%欠損率時において96.7%の分類精度を達成し、FWGKNN(94.2%)およびGKNN(93.8%)を顕著に上回った。
  • 20%欠損率時、HepatitisデータセットではCGKNNがRMSEを0.1049に低下させたのに対し、MICEは0.1967、missForestは0.1858であった。
  • 分類精度の収束が速く、特に低欠損率時において迅速に安定化した。
  • 相互情報量を重み因子として用いることで、分類予測に最も関連する特徴量に焦点を当てた、品質の高い補完が実現した。
  • 実験的結果から、CGKNNは補完誤差および下流分類精度の両面で、最先端の補完手法を一貫して上回ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。