QUICK REVIEW

[論文レビュー] Is Homophily a Necessity for Graph Neural Networks?

Yao Ma, Xiaorui Liu|arXiv (Cornell University)|Jun 11, 2021

Advanced Graph Neural Networks参考文献 48被引用数 58

ひとこと要約

この論文は、GCNが特定の条件下で異質親和性グラフで良好な性能を示すことを示し、同一ラベルが強いSSNCの性能に必要かどうかを分析する。

ABSTRACT

Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption ("like attracts like"), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.

研究の動機と目的

半教師付きノード分類における同質性の役割をGCN性能で調査する。
GCNが異質性グラフで良好に機能する条件を特徴付ける。
埋め込み挙動と近傍分布に基づく理論的説明を提供する。
実世界および合成の異質性グラフでGCNを評価し、同質性特化モデルと比較する。

提案手法

特徴量と隣接分布に関する仮定の下でGCN埋め込みを理論的に分析する。
Contextual Stochastic Block Model (CSBM) を用いてGCN平滑化後の線形分離性を研究する。
同じラベルの埋め込みが収束する境界を導出し、近隣分布が分離性に影響を与えることを示す。
ターゲット近傍分布に従ってエッジを追加することで、ノイズを制御しつつ合成異質性グラフを生成し、性能傾向を研究する。
標準ベンチマークでGCNとMLPおよび異質性に特化したアーキテクチャを比較する。

実験結果

リサーチクエスチョン

RQ1標準的なGCNが強力なSSNC性能を発揮できる異質性条件は何か。
RQ2ノード次数と近隣分布の識別性はGCNの有効性にどう影響するか。
RQ3実世界の異質性グラフにおけるGCNの性能を説明する解釈は何か。
RQ4近傍パターンへの合成的撹乱はGCNと専門モデルにどう影響するか。

主な発見

方法	Chameleon h=0.23	Squirrel h=0.22
GCN	67.96 ± 1.82	54.47 ± 1.17
H2GCN-1	57.11 ± 1.58	36.42 ± 1.89
H2GCN-2	59.39 ± 1.98	37.90 ± 2.02
CPGNN-MLP	54.53 ± 2.37	29.13 ± 1.57
CPGNN-Cheby	65.17 ± 3.17	29.25 ± 4.17
GPRGNN	66.31 ± 2.05	50.56 ± 1.51
MLP	48.11 ± 2.23	31.68 ± 1.90

GCNは、適切なハイパーパラメータ調整の下で、異質性に特化したモデルを上回るグラフがある。
同じラベルのノードは、近隣パターンが同様に分布していればGCN埋め込みが類似となり、良好なSSNCを実現できる。
近傍分布が識別可能な場合は高次数ノードの性能が向上するが、非常に類似した分布では利益は限定的。
良い異質性と悪い異質性の両方が存在する；異質性がGCNの悪い性能を十分には説明しない。
実データのベンチマークでは、GCNはSquirrelやChameleonのような異質性グラフでMLPよりも優れる場合があり、他方で劣る場合もある。
ターゲット近傍分布に従ってエッジを追加するとV字型の性能傾向が現れ、トポロジー依存の閾値的転換があることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。