Skip to main content
QUICK REVIEW

[論文レビュー] Learning Graph Neural Networks with Noisy Labels

Hoang Nt, Choong Jun Jin|arXiv (Cornell University)|May 5, 2019
Machine Learning and Data Classification参考文献 6被引用数 23
ひとこと要約

本稿では、推定されたノイズ行列を用いた損失補正により、対称的ラベルノイズに対して耐性を示すデノイジンググラフニューラルネットワーク(D-GNN)を提案する。GINとGraphSAGEを組み合わせ、ノイズに配慮した損失補正を施すことで、ノイズがかかる訓練条件下でもベンチマークデータセット上で顕著な精度向上を達成した。特に、補正行列が正確に推定された場合には顕著な向上が見られた。

ABSTRACT

We study the robustness to symmetric label noise of GNNs training procedures. By combining the nonlinear neural message-passing models (e.g. Graph Isomorphism Networks, GraphSAGE, etc.) with loss correction methods, we present a noise-tolerant approach for the graph classification task. Our experiments show that test accuracy can be improved under the artificial symmetric noisy setting.

研究の動機と目的

  • クラウドソーシングによるデータ収集で一般的に見られるノイズの多いラベルを伴う大規模グラフデータセット上で、グラフニューラルネットワーク(GNN)を訓練する課題に対処すること。
  • 各ラベルが他のクラスに等確率で誤りに置き換えられる対称的ラベルノイズ下でのGNNの一般化性能を向上させること。
  • GINやGraphSAGEのようなGNNアーキテクチャに損失補正技術を統合することで、ノイズに強い訓練手順を開発すること。
  • 現実のグラフ分類ベンチマークにおいて、保守的推定、アンカーベース推定、正確仮定の3つの異なるノイズ行列推定戦略の有効性を評価すること。

提案手法

  • 損失補正に後向き補正を適用し、学習された補正行列 $\mathbf{C}$ を用いて $\ell^{\leftarrow} = \mathbf{C}^{-1} \cdot \ell(\hat{p}(y|\mathcal{G}))$ を定義することで、ラベルノイズの影響を軽減する。
  • ラベルの誤りをモデル化するため、対称的ノイズ行列 $\mathbf{N}$ を用い、各ラベル $i$ が $j \neq i$ に等確率 $n$ で誤りに置き換えられる。
  • 補正行列 $\mathbf{C}$ の推定には3つの戦略を用いる:保守的推定(モデルの信頼度に基づく)、アンカーベース推定(クリーンな検証サンプルを用いる)、正確仮定(既知のノイズ行列を仮定)。
  • GINに基づくメッセージパッシングフレームワークを採用し、複数層にわたる集約関数と結合関数を用いてノード表現を更新する。
  • 実際の運用では補正行列 $\mathbf{C}$ をハイパーパrameterとして扱い、クリーンな検証セットを用いてチューニングすることで耐性を向上させる。
  • 補正された勾配を用いた交差エントロピー損失を採用し、誤分類サンプルの影響をバックプロパゲーション中に低減する。

実験結果

リサーチクエスチョン

  • RQ1損失補正技術は、グラフ分類タスクにおける対称的ラベルノイズ下でのGNNの耐性を向上させることができるか?
  • RQ2対称的ラベルノイズの増加に伴い、GNNの精度はどのように低下するか?また、補正手法はその低下を緩和できるか?
  • RQ3保守的推定、アンカーベース推定、正確仮定の3つのノイズ行列推定戦略は、ノイズのあるグラフデータにおけるモデル一般化性能の向上にどの程度有効か?
  • RQ4D-GNNフレームワークは、人工的な対称的ラベルノイズを含むデータセット上で、GNN や GraphSAGE といった標準的なGNNと比較して優れた性能を示すか?

主な発見

  • アンカーベース推定を用いたD-GNN(D-GNN-A)は、20%の対称的ラベルノイズ下で9つのデータセットのうち7つで最先端の性能を達成した。
  • IMDB-Bデータセットでは、D-GNN-Aがテスト精度をGNNの0.6573から0.7088まで向上させ、相対的に7.8%の改善を達成した。
  • 保守的推定法(D-GNN-C)は、モデル予測の過信による影響で補正行列の推定が不正確になり、一般化性能が悪化した。
  • 正確なノイズ行列を用いたD-GNN(D-GNN-E)は優れた結果を示し、正確なノイズ推定が性能向上に不可欠であることを示した。
  • PROTEINSデータセットでは、D-GNN-Aが0.6769のテスト精度を達成したのに対し、GNNは0.6257であった。相対的な改善は8.4%であった。
  • MUTAG、COLLAB、NCI1といった多様なグラフデータセットにおいても一貫した向上が確認され、実世界のバイオインフォマティクスデータへの一般化可能性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。