[論文レビュー] Hierarchical Graph Transformer with Adaptive Node Sampling
本論文は ANS-GT を提案する。適応的ノードサンプリングを adversarial bandit フレームワークで実現し、グラフのコアリッジを用いた階層的アテンション機構を備える。これにより、大規模グラフ上で局所情報と全体情報を捉える。
The Transformer architecture has achieved remarkable success in a number of domains including natural language processing and computer vision. However, when it comes to graph-structured data, transformers have not achieved competitive performance, especially on large graphs. In this paper, we identify the main deficiencies of current graph transformers:(1) Existing node sampling strategies in Graph Transformers are agnostic to the graph characteristics and the training process. (2) Most sampling strategies only focus on local neighbors and neglect the long-range dependencies in the graph. We conduct experimental investigations on synthetic datasets to show that existing sampling strategies are sub-optimal. To tackle the aforementioned problems, we formulate the optimization strategies of node sampling in Graph Transformer as an adversary bandit problem, where the rewards are related to the attention weights and can vary in the training procedure. Meanwhile, we propose a hierarchical attention scheme with graph coarsening to capture the long-range interactions while reducing computational complexity. Finally, we conduct extensive experiments on real-world datasets to demonstrate the superiority of our method over existing graph transformers and popular GNNs.
研究の動機と目的
- 大規模なグラフへスケールしつつ性能を維持するグラフトランスフォーマーの必要性を喚起する。
- 訓練中に有益なノードを選択する適応的ノードサンプリング機構を提案する。
- グラフ粗視化を用いた階層的アテンション機構を通じて長距離のグローバル依存性を取り入れる。
- 六つのデータセットで既存のグラフトランスフォーマーおよび一般的なGNNより実証的な改善を示す。
提案手法
- ノードサンプリングを敵対的バンディット問題として定式化し、Exp4.P を適応させて複数のサンプリングヒューリスティック(1ホップ/2ホップ、PPR、KNN)を重み付けする。
- アテンションの大きさとサンプリング確率に基づく報酬を定義し、サンプリング戦略の更新を導く。
- グラフ粗視化と少数のグローバルノードを用いた、細粒度の局所アテンションと粗粒度のグローバルアテンションを組み込んだ階層的アテンションフレームワークを導入する。
- 計算量を抑えつつグローバル相互作用を可能にするため、グラフ粗視化を用いて小さなグラフを生成する。
- 近接ベースの位置エンコードと、プレ・LN/ポスト・LN 構造を備えた Graphormer風のトランスフォーマーレイヤーを用いる。
- サンプルするノードを制限し長距離相互作用を粗視化グラフへオフロードすることで、全体的な計算量を線形時間で主張する。
実験結果
リサーチクエスチョン
- RQ1適応的でグラフ認識的なノードサンプリングは大規模グラフ上のグラフトランスフォーマーの性能を改善できるか?
- RQ2グラフ粗視化と階層的アテンションによる長距離のグローバル情報の組み込みは、局所的なアテンションのみより良い表現を生み出すか?
- RQ3さまざまな構造特性(同質性/異質性など)を持つグラフにおいて、異なるサンプリングヒューリスティック(1ホップ、2ホップ、PPR、KNN)はどのように機能するか?
主な発見
| モデル | Cora | Citeseer | Pubmed | Chameleon | Actor | Squirrel | Texas | Cornell | Wisconsin |
|---|---|---|---|---|---|---|---|---|---|
| GT | 71.84 | 67.38 | 82.11 | 57.86 | 37.94 | 25.68 | 66.70 | 60.39 | 65.08 |
- ANS-GT は六つのベンチマークデータセット全体で既存のGraph Transformerベースラインを一貫して上回る。
- 適応サンプリングの重みは訓練中に変化し、グラフ特性と整合してアテンションに焦点を当てたノード選択を改善する。
- グラフ粗視化を伴う階層的アテンションは長距離依存性を捕捉しつつ効率を維持する。
- アブレーション研究は、それを持たないバージョン(HGT)より適応サンプリングモジュールから顕著な利得を示す。
- 粗視化手法は堅牢で、強い性能には小さな粗視化率で十分である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。