[論文レビュー] Missing values : processing with the Kohonen algorithm
本稿では、自己組織化マップ(SOM)を用いて欠損データを処理する手法を提案する。この手法は、学習中に不完全な観測値を直接処理できるアルゴリズムの特性を活用し、クラス別平均補完を用いて欠損値を推定する。変数間に相関がある場合、64%までの欠損率であっても分類精度と推定精度を維持する。実世界のデータセット(マクロ経済、都市統計、政府支出)を用いた実験でその有効性が確認された。
The processing of data which contain missing values is a complicated and always awkward problem, when the data come from real-world contexts. In applications, we are very often in front of observations for which all the values are not available, and this can occur for many reasons: typing errors, fields left unanswered in surveys, etc. Most of the statistical software (as SAS for example) simply suppresses incomplete observations. It has no practical consequence when the data are very numerous. But if the number of remaining data is too small, it can remove all significance to the results. To avoid suppressing data in that way, it is possible to replace a missing value with the mean value of the corresponding variable, but this approximation can be very bad when the variable has a large variance. So it is very worthwhile seeing that the Kohonen algorithm (as well as the Forgy algorithm) perfectly deals with data with missing values, without having to estimate them beforehand. We are particularly interested in the Kohonen algorithm for its visualization properties.
研究の動機と目的
- 従来の手法を用いる場合にデータ損失やバイアス推定を引き起こす欠損値を有するデータセットの分析の課題に対処すること。
- Kohonen自己組織化マップ(SOM)が、事前の補完やリストワイズ削除を経ずに不完全なデータを効果的に処理できることを示すこと。
- 特に変数間に相関がある場合に、最終的なコードブックベクトルをクラス平均として用いることで、欠損値を安定的に推定する強固な手法を提供すること。
- さまざまな欠損率を想定した実世界のデータセットにおいて、手法の安定性と正確性を検証すること。
- 標準的なソフトウェアが失敗するような極めてスパースなデータセット(例:64%の欠損値)において、SOMが分類と欠損値補完を実行できることを示すこと。
提案手法
- Kohonenアルゴリズムを変更し、距離計算に観測済み成分のみを用いる。勝者となるコードベクトルは、欠損していない成分における二乗差の和に基づいて選択される。
- 学習中、各観測値の欠損していない成分に対してのみコードベクトルが更新され、学習率は時間とともに減少する。
- 収束後、欠損値は勝者となるコードベクトルの対応する成分(すなわち、クラス平均)として推定される。
- メンバーーシップ確率は、逆二乗距離のソフトマックス変換を用いて計算され、重み付き補完と不確実性推定が可能になる。
- 訓練後、補完済みの観測値を含む補足観測値は、利用可能な成分のみを用いて最も近いコードベクトルに割り当てられる。
- 本手法は3つの実世界データセット(社会経済指標、都市統計、時間経過に伴う政府支出)で検証され、補完精度は平均二乗誤差で測定された。
実験結果
リサーチクエスチョン
- RQ1Kohonen自己組織化マップは、事前の補完なしに、欠損値を有するデータを効果的に処理・分類できるか?
- RQ2最終的なコードブックから導出されたクラス別平均補完を用いた場合、欠損値の推定はどの程度正確か?
- RQ3変数間の相関が、SOMを用いた欠損値推定の性能にどの程度影響を与えるか?
- RQ4欠損データの割合が増加するにつれて、得られるクラスタ構造と補完結果の安定性はどの程度か?
- RQ5標準的なソフトウェアが失敗するような極めてスパースなデータセット(例:64%の欠損値)において、SOMは分類と欠損値補完が可能か?
主な発見
- Kohonenアルゴリズムは、Ile-de-France都市データの例で示されるように、最大64%の欠損率を持つデータセットに対しても、欠損値の補完と分類を成功裏に実行した。
- 政府支出データセットでは、1年あたり最大3件(27%の欠損率)が欠落した場合でも、補完値の平均二乗誤差が0.73未満に保たれ、高い推定正確性を示した。
- 本手法は、全テストされた欠損率レベルにおいて安定したクラスタ構造を維持した。3つのスーパークラス(第一次世界大戦前、戦間期、第二次大戦後)は73%の欠損率でも保持された。
- Ile-de-Franceデータの相関行列では、105組のペアワイズ相関のうち76組が0.8を超えており、これが補完の高精度を説明している。
- メンバーーシップ確率は、マップの組織的構造を裏付けた。有意義な確率が隣接クラスに集中しており、トポロジカル構造の妥当性が確認された。
- スパースなデータセットにおいて、リストワイズ削除に比べて本手法が優れていることが示された。完全ケース解析では205町中5町しか残らなかったが、SOMはすべての観測値を保持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。