[論文レビュー] On the consistency of supervised learning with missing values
この論文は監視学習における欠損値を伴う予測のベイズ一貫性を研究し、平均代入が一貫性を持つ可能性を示し、訓練とテストの欠測データ処理に MI および MIA ベースのアプローチを提案している。木構造法を含む欠測データ処理手法も検討する。
In many application settings, the data have missing entries which make analysis challenging. An abundant literature addresses missing values in an inferential framework: estimating parameters and their variance from incomplete tables. Here, we consider supervised-learning settings: predicting a target when missing values appear in both training and testing data. We show the consistency of two approaches in prediction. A striking result is that the widely-used method of imputing with a constant, such as the mean prior to learning is consistent when missing values are not informative. This contrasts with inferential settings where mean imputation is pointed at for distorting the distribution of the data. That such a simple approach can be consistent is important in practice. We also show that a predictor suited for complete observations can predict optimally on incomplete data, through multiple imputation. Finally, to compare imputation with learning directly with a model that accounts for missing values, we analyze further decision trees. These can naturally tackle empirical risk minimization with missing values, due to their ability to handle the half-discrete nature of incomplete variables. After comparing theoretically and empirically different missing values strategies in trees, we recommend using the "missing incorporated in attribute" method as it can handle both non-informative and informative missing values.
研究の動機と目的
- 欠測データが監視学習にもたらす課題と予測精度への影響を動機づける。
- 欠測値が訓練データとテストデータの存在時に予測の一貫性に関する理論的結果を確立する。
- 代入ベースのアプローチを欠測値を持つデータ上での学習と比較し、欠測の処理における決定木法を分析する。
- 監視学習における欠測データ戦略の実用的な選択指針を提案する(木に対するMIAを含む)。
提案手法
- 欠測データの形式化を訓練/テスト分割を伴う監視学習に拡張する。
- 完全データの最適予測子を用いたテスト時多重代入のベイズ一貫性結果を証明する。
- 学習前の平均代入が監視予測に対して一貫性を持つことを示す。
- 欠測データを伴う経験的リスク最小化を分析し、代替・デフォルト・ブロック伝搬・MIA など木ベースの手法への含意を導く。
- 異なる木ベースの欠測値戦略を理論的・実証的に比較する。
- 欠測性指標(マスク)を追加する現実的な補足とその影響を議論する。
実験結果
リサーチクエスチョン
- RQ1MAR の下で完全データで訓練した最適予測子が欠測値を持つデータで評価されたときにベイズ一貫性を保つか。
- RQ2欠測データを伴う監視学習で単純な平均代入は一貫性を達成するのに十分か。
- RQ3欠測データに対する代入戦略と木構造戦略は不完全データでの予測の一貫性と精度の達成にどう寄与するか。
- RQ4 MAR および MNAR の下で MIA など欠測性処理戦略を決定木に組み込むことの影響は。
主な発見
- 学習前の平均代入は監視予測に対してベイズ一貫性を持つことがある。
- 完全データのベイズ一貫性予測子を用いたテスト時の多重代入は、不完全なテストデータ上でベイズ一貫性の予測を生む。
- 決定木アプローチは欠測値を自然に扱うことができ、MIA は非情報的・情報的欠測性の両方に対して有利な理論的・経験的特性を提供する。
- サンプル外代入には訓練/テスト分布を整合させる代入モデルの慎重な取り扱いが必要だが、EM ベースまたは MI アプローチは MAR の下で堅牢な予測を提供することができる。
- 欠測性指標(マスク)の組み込みは実務上有益となることがあるが、パラメータ推定には必ずしも最適とは限らない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。