[論文レビュー] Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods
本論文は、大規模で非同質(non-homophilous)グラフのベンチマークと、単純でスケーラブルなモデル LINKX を提案し、ベースラインを上回り、単純なミニバッチ処理でも効果的であることを示している。
Many widely used datasets for graph machine learning tasks have generally been homophilous, where nodes with similar labels connect to each other. Recently, new Graph Neural Networks (GNNs) have been developed that move beyond the homophily regime; however, their evaluation has often been conducted on small graphs with limited application domains. We collect and introduce diverse non-homophilous datasets from a variety of application areas that have up to 384x more nodes and 1398x more edges than prior datasets. We further show that existing scalable graph learning and graph minibatching techniques lead to performance degradation on these non-homophilous datasets, thus highlighting the need for further work on scalable non-homophilous methods. To address these concerns, we introduce LINKX -- a strong simple method that admits straightforward minibatch training and inference. Extensive experimental results with representative simple methods and GNNs across our proposed datasets show that LINKX achieves state-of-the-art performance for learning on non-homophilous graphs. Our codes and data are available at https://github.com/CUAI/Non-Homophily-Large-Scale.
研究の動機と目的
- 拡張可能なグラフ学習手法を評価するための、巨大で多様な非同質グラフデータセットの不足を動機づけ、解決する。
- 大規模グラフ上で、既存のミニバッチ処理やスケーラブル手法が非同質設定で性能が低いことを示す。
- 隣接情報と特徴情報を組み合わせる、単純でスケーラブルなモデル LINKX を提案し、強力な性能を達成する。
- 提案データセット上で、LINKX が広範なベースラインとGNNを上回ることを、広範な実験を通じて示す。
提案手法
- 複数の応用分野にまたがる大規模な非同質データセットの多様なセットを導入し、従来の研究比で最大 384x ノード、1398x エッジ多いデータを含む。
- いくつかのデータセットのノード特徴を定義し、ランダムグラフのヌルモデルからの乖離を評価する改良された非同質性指標 hat{h} を提案する。
- MLP を用いて隣接行列 A とノード特徴 X を個別に埋め込み、それらの埋め込みを連結し、スキップ接続を伴う線形変換を適用し、さらに MLP を通してラベルを予測する LINKX を提案する。
- GNN のグラフ固有のミニバッチ処理の複雑さを回避する、LINKX のミニバッチ対応の訓練と推論スキームを提供する。
- 新規データセット全体で、MLP、LINK、SGC、C&S、および現代の非同質性に焦点を当てた GNN など、幅広いベースラインと LINKX を比較する。
実験結果
リサーチクエスチョン
- RQ1大規模な非同質グラフは、データセットの規模と既存手法の性能の点で、従来の同質ベンチマークとどのように異なるか。
- RQ2現在のグラフミニバッチ処理とスケーラブル手法は、非同質グラフに適用した場合どの程度機能するか。
- RQ3隣接情報と特徴情報を分離して統合する単純なモデルが、非同質設定で最先端の性能を達成できるか。
- RQ4大規模な非同質グラフに対するスケーラブル学習に、単純な i.i.d. ノードミニバッチ戦略で十分か。
- RQ5提案されたベンチマークに対する、LINKX の経験的な性能は、幅広いベースラインと比較してどうか。
主な発見
- 著者らは、従来のデータセットよりはるかに多くのノードとエッジを持つ、巨大で多様な非同質グラフを組み立て、スケーラブルな評価を可能にしている。
- GraphSAINT などのグラフミニバッチ技術は、非同質設定で性能を大幅に低下させ、大規模グラフでは特に顕著だ。
- 同質性仮定に基づくスケーラブル手法(例:SGC、C&S)は非同質データで性能が低く、非同質性に合わせた手法の必要性を浮き彫りにしている。
- LINKX、隣接とノード特徴を別々に埋め込み、それらを結合する単純なモデルが、提案された非同質ベンチマークで最先端の性能を達成する。
- LINKX は単純な i.i.d. ノードミニバッチ処理をサポートし、大規模グラフへ拡張でき、多くのベースラインや他の非同質手法を上回る。
- 大規模グラフのミニバッチ実験では、LINKX は GNN や GraphSAINT ベースのアプローチを含む代替手段と同等かそれ以上の性能を示しつつ、計算効率も高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。