Skip to main content
QUICK REVIEW

[論文レビュー] Handling Missing Data with Graph Representation Learning

Jiaxuan You, Xiaobai Ma|arXiv (Cornell University)|Oct 30, 2020
Advanced Graph Neural Networks参考文献 64被引用数 94
ひとこと要約

Grape は 双部グラフ表現と Graph Neural Networks を用いて欠測データの特徴量補完とラベル予測の双方を行い、9 つの UCI データセットで顕著な MAE 改善を達成します。

ABSTRACT

Machine learning with missing data has been approached in two different ways, including feature imputation where missing feature values are estimated based on observed values, and label prediction where downstream labels are learned directly from incomplete data. However, existing imputation models tend to have strong prior assumptions and cannot learn from downstream tasks, while models targeting label prediction often involve heuristics and can encounter scalability issues. Here we propose GRAPE, a graph-based framework for feature imputation as well as label prediction. GRAPE tackles the missing data problem using a graph representation, where the observations and features are viewed as two types of nodes in a bipartite graph, and the observed feature values as edges. Under the GRAPE framework, the feature imputation is formulated as an edge-level prediction task and the label prediction as a node-level prediction task. These tasks are then solved with Graph Neural Networks. Experimental results on nine benchmark datasets show that GRAPE yields 20% lower mean absolute error for imputation tasks and 10% lower for label prediction tasks, compared with existing state-of-the-art methods.

研究の動機と目的

  • 欠測データ問題と従来の補完法およびラベル予測法の限界を動機づける。
  • 両方のタスクをエンドツーエンドで扱う一般的なグラフベースのフレームワーク(Grape)を提案する。
  • 観測値と特徴量をノードとして持つ二部グラフが効果的な補完と予測を可能にすることを示す。
  • 未知データへの頑健性、一般化、複数データセットにわたるスケーラビリティを示す。

提案手法

  • 観測値と特徴量をノードタイプとし、観測値をエッジとする二部グラフを構築する。
  • 特徴量補完をエッジレベルの予測として、ラベル予測をグラフ上のノードレベルの予測として定式化する。
  • GraphSAGE に触発された、エッジ埋め込みと拡張ノード特徴量を用いる二部グラフ向けの Graph Neural Network アーキテクチャを開発する。
  • 学習時にエッジドロップアウトを組み込み、過学習を抑制し未知のエッジへの一般化を改善する。
  • O_edge(補完)と O_node(予測) の両方の成分をエンドツーエンドの訓練で最適化する。

実験結果

リサーチクエスチョン

  • RQ1グラフベースの表現は、最先端手法と比較して欠測特徴量の補完品質を改善できるか。
  • RQ2欠測データ下で、エンドツーエンドの GNN ベース学習が特徴量補完と下流のラベル予測を同時に改善できるか。
  • RQ3エッジドロップアウトと増強された二部グラフ特徴量は未知のデータや観測値への一般化を高めるか。
  • RQ4多くの特徴量を持つデータセットに対して Grape はスケーラブルで、データセット間で知識を転移できるか。
  • RQ5ベンチマークデータセットで、さまざまな欠測データ率に対して Grape はどのように性能を発揮するか。

主な発見

  • Grape は 9 つの UCI データセットで 30% の欠測データ時に、特徴量補完の MAE を約 20%、ラベル予測の MAE を約 10%低減させる。
  • エッジドロップアウトは補完タスクの MAE を平均約 33% 減少させる。
  • エンドツーエンド訓練は、ほとんどの場合、下流の予測 MAE を約 19% 改善する。
  • Grape は再訓練なしで未知の観測にも良く一般化し、ベースラインより約 21% の MAE 改善を示す。
  • Grape は異なる欠測データレベル(比)を横断して堅牢な性能を維持し、スケーラブルな二部グラフ学習をサポートする。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。