QUICK REVIEW

[論文レビュー] Scalable Graph Neural Networks for Heterogeneous Graphs

Lingfan Yu, Jiajun Shen|arXiv (Cornell University)|Nov 19, 2020

Advanced Graph Neural Networks参考文献 33被引用数 26

ひとこと要約

本稿では、関係サブグラフをランダムにサンプリングし、それら上で隣接ノード特徴量の平均を計算して1次元畳み込みで統合する、スケーラブルな異種グラフ向け手法Neighbor Averaging over Relation Subgraphs (NARS) を提案する。NARSは、深層GNNよりもグラフ特徴量の滑らかさをより効果的に活用することで、ベンチマークデータセットで最先端の精度を達成するが、近似手法を用いることで高いスケーラビリティとメモリ効率を維持する。

ABSTRACT

Graph neural networks (GNNs) are a popular class of parametric model for learning over graph-structured data. Recent work has argued that GNNs primarily use the graph for feature smoothing, and have shown competitive results on benchmark tasks by simply operating on graph-smoothed node features, rather than using end-to-end learned feature hierarchies that are challenging to scale to large graphs. In this work, we ask whether these results can be extended to heterogeneous graphs, which encode multiple types of relationship between different entities. We propose Neighbor Averaging over Relation Subgraphs (NARS), which trains a classifier on neighbor-averaged features for randomly-sampled subgraphs of the "metagraph" of relations. We describe optimizations to allow these sets of node features to be computed in a memory-efficient way, both at training and inference time. NARS achieves a new state of the art accuracy on several benchmark datasets, outperforming more expensive GNN-based methods

研究の動機と目的

ノードおよび関係タイプが複数存在する異種グラフに、SIGNのような隣接平均化アプローチを拡張可能かどうかを調査すること。
エンドツーエンドで訓練されたメッセージパッシング層に依存せずに、大規模な異種グラフ上で学習するためのスケーラブルでメモリ効率の良い手法を開発すること。
実世界のグラフベンチマークにおいてGNNの性能を左右する主な要因が、学習された階層的特徴変換ではなく、グラフ特徴量の滑らかさであるかどうかを評価すること。
異種グラフにおける特徴なしノードの処理の課題に、さまざまな特徴初期化戦略を比較することで対処すること。
精度を損なわせることなく、関係サブグラフを部分的にサンプリングすることで、学習効率を最適化すること。

提案手法

NARSは、異種グラフのメタグラフから関係タイプのランダムな部分集合をサンプリングして関係サブグラフを構築する。
各サブグラフに対して、エッジを介したメッセージパッシングに類似した集約手法を用いて、隣接ノード特徴量の平均を計算する。
複数のサブグラフからの平均特徴量を連結し、1次元畳み込み層で統合表現を学習する。
最終的な分類器は、統合特徴量上でエンドツーエンドで訓練され、効率的な学習と推論を可能にする。
学習中に一度に処理するサブグラフ数を制限することで、メモリ使用量を削減するNARSの近似版を導入する。
入力特徴のないノードに対しては、ゼロパディング、隣接ノード平均、および事前学習済みグラフ埋め込み（例：TransE）など、複数の初期化戦略を評価する。

実験結果

リサーチクエスチョン

RQ1SIGNのような隣接平均化手法は、複数のノードおよび関係タイプを含む異種グラフに効果的に拡張可能か？
RQ2実世界の異種グラフベンチマークにおいて、GNNの性能を左右する主な要因が、深層階層的特徴学習ではなくグラフ特徴量の滑らかさであるか？
RQ3NARSにおけるサンプリングされた関係サブグラフの数は、モデルの精度と分散にどのように影響するか？
RQ4特徴なしノードのための異なる特徴初期化戦略が、NARSの性能に与える影響は何か？
RQ5精度を劣化させることなく、関係サブグラフを部分的にサンプリングすることで、メモリ効率の良い学習を達成できるか？

主な発見

NARSは3つのベンチマークデータセットで最先端の精度を達成し、HGT や R-GCN といったより複雑なGNNを上回る。
OGB-MAGデータセットでは、5つ以上の関係サブグラフをサンプリングすることで、HGT や R-GCN を常に上回り、TransE埋め込みを用いるとテスト精度が 0.5214 ± 0.0016 に達する。
特徴なしノードに事前学習済みのTransE埋め込みを用いることで最高の性能が得られ、ゼロパディングに比べて10%以上の精度向上が見られた。
ステージごとに1つのサブグラフのみをサンプリングしても、良好な性能（0.5187 ± 0.0011）と低い分散が得られ、最小限の計算オーバーヘッドで高精度が達成可能であることが示された。
近似版NARSは、完全版とほぼ同一の精度を維持しており、大規模な展開に向けたメモリ効率の妥当性が裏付けられた。
結果から、GNNにおける主な信号はグラフ特徴量の滑らかさであり、現在のベンチマークでは深層階層的特徴学習の恩恵は限定的であると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。