QUICK REVIEW

[論文レビュー] Understanding Attention and Generalization in Graph Neural Networks

B. A. Knyazev, Graham W. Taylor|arXiv (Cornell University)|May 8, 2019

Advanced Graph Neural Networks参考文献 30被引用数 55

ひとこと要約

論文はGNNにおけるノード注意機構を研究し、適切に初期化または弱教師ありであれば大きな/ノイズの多いグラフへの一般化を大きく改善できるが、適切な訓練や初期化なしにはしばしば不安定である。

ABSTRACT

We aim to better understand attention over nodes in graph neural networks (GNNs) and identify factors influencing its effectiveness. We particularly focus on the ability of attention GNNs to generalize to larger, more complex or noisy graphs. Motivated by insights from the work on Graph Isomorphism Networks, we design simple graph reasoning tasks that allow us to study attention in a controlled environment. We find that under typical conditions the effect of attention is negligible or even harmful, but under certain conditions it provides an exceptional gain in performance of more than 60% in some of our classification tasks. Satisfying these conditions in practice is challenging and often requires optimal initialization or supervised training of attention. We propose an alternative recipe and train attention in a weakly-supervised fashion that approaches the performance of supervised models, and, compared to unsupervised models, improves results on several synthetic as well as real datasets. Source code and datasets are available at https://github.com/bknyaz/graph_attention_pool.

研究の動機と目的

ノードに対する注意がGNNの性能に役立つ条件を調査する。
GNNにおける注意の有効性に影響を与える要因を理解する。
注意機能を備えたGNNの、より大規模・より複雑・あるいはノイズの多いグラフへの一般化を評価する。

提案手法

注意機構をプーリングと統合して、統一されたGNNブロックを形成する。
2つの注意機構を比較する：線形射影とDiffPoolベースのサブネットワーク。
注意によってノードを削除する閾値ベースのプーリング変種を導入し、top-kプーリングに類似させる。
KLダイバージェンス損失を用いた、監督付き・非監督式および弱教師付きの注意訓練を使用する。
訓練ダイナミクスを改善するための多スケールチェビシェフ/GNNハイブリッドであるChebyGINを提案する。

実験結果

リサーチクエスチョン

RQ1GNNにおいて注意が利益をもたらす条件は何か、無視できる程度か有害になるかはどの条件か。
RQ2注意はタスク間でより大きい／ノイズの多いグラフへの一般化にどう影響するか。
RQ3注意の弱教師付き訓練スキームは、完全監督付き注意の性能に近づくか。
RQ4注意の性能に影響を与える主な要因（初期化、基礎となるGNNの強さ、ハイパーパラメータ）は何か？
RQ5提案された注意ベースのプーリングは、DiffPoolやtop-kプーリングなど既存のプーリング手法とどう比較されるか？

主な発見

条件が満たされる場合、注意は一部の分類タスクで>60%の性能向上をもたらすことがある。
一般的な設定では、初期化/訓練が慎重に管理されない限り、注意の効果は無視できるか有害である。
監督付きまたは弱教師付きの注意は、合成データセットと実データセットの両方で、より大きくノイズのあるグラフへの頑健性と一般化を顕著に向上させる。
注意モデルの初期化が不十分だと、モデルをサブ最適なプーリング選択にロックしてしまう；良い初期化が高い性能にとって極めて重要。
弱教師付き注意訓練は、監督付き注意との差を大幅に縮め、いくつかのデータセットで非教師ありアプローチよりも高性能を発揮する。
ChebyGIN（チェビシェフ/GNNハイブリッド）は、注意と組み合わせることで訓練ダイナミクスと性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。