QUICK REVIEW

[論文レビュー] Where Did the Gap Go? Reassessing the Long-Range Graph Benchmark

Jan Tönshoff, Martin Ritzert|arXiv (Cornell University)|Jan 1, 2023

Advanced Graph Neural Networks被引用数 1

ひとこと要約

この論文はLong-Range Graph Benchmark (LRGB)を再評価し、Graph TransformersとMessage Passing GNNs (MPGNNs)の間の報告された性能差が主に最適でないハイパーパrameterの選定に起因していることを示している。きめ細やかなハイパーパrameterチューニングを経て、GCN や GatedGCN などのMPGNNsが、Peptides-Structで最先端の性能を達成するなど、複数のデータセットでGPSを上回った。また、特徴量正規化と適切なメトリクスのフィルタリングにより、視覚系およびリンク予測タスクにおいても性能差が縮まった。

ABSTRACT

The recent Long-Range Graph Benchmark (LRGB, Dwivedi et al. 2022) introduced a set of graph learning tasks strongly dependent on long-range interaction between vertices. Empirical evidence suggests that on these tasks Graph Transformers significantly outperform Message Passing GNNs (MPGNNs). In this paper, we carefully reevaluate multiple MPGNN baselines as well as the Graph Transformer GPS (Rampášek et al. 2022) on LRGB. Through a rigorous empirical analysis, we demonstrate that the reported performance gap is overestimated due to suboptimal hyperparameter choices. It is noteworthy that across multiple datasets the performance gap completely vanishes after basic hyperparameter optimization. In addition, we discuss the impact of lacking feature normalization for LRGB's vision datasets and highlight a spurious implementation of LRGB's link prediction metric. The principal aim of our paper is to establish a higher standard of empirical rigor within the graph machine learning community.

研究の動機と目的

Long-Range Graph Benchmark (LRGB)におけるGraph TransformersとMPGNNsの性能差を、きめ細やかなハイパーパrameterチューニングを用いて再評価すること。
Graph TransformersがMPGNNsを上回ると報告されている優位性が、アーキテクチャ的優位性に起因するのか、それとも最適でないベースライン設定に起因するのかを調査すること。
入力特徴量の正規化が、視覚ベースのLRGBデータセット（PascalVOC-SPおよびCOCO-SP）におけるMPGNNスコアに与える影響を評価すること。
PCQM-Contactのリンク予測タスクにおけるMRRメトリクスが、ネガティブサンプルのフィルタリング戦略にどれほど感受的であるかを分析すること。
再現可能でよくチューニングされたベースラインと一貫した評価プロトコルを通じて、グラフ機械学習分野におけるより高い実証的基準を提唱すること。

提案手法

GCN、GINE、GatedGCN、GPSに対して、厳密な500kパラメータ予算内で体系的なハイパーパrameterスイープを実施した。
MPGNNsの元々の線形予測ヘッドを、非線形なターゲット関数をよりよくモデル化できる多層MLPヘッドに置き換えた。
スーパーピクセルデータセットにおいて、ノードおよびエッジ特徴量に対してチャネルごとの平均および標準偏差による特徴量正規化を適用した。
PCQM-Contactのリンク予測評価を、複数のフィルタリング戦略（元のもの、誤ったネガティブ例を除去したもの、自己ループを除去した拡張版）を用いて再実装した。
すべてのモデルに対して同一のトレーニングおよび評価プロトコルを用いて、公平な比較を確保した。
正規化とハイパーパrameterチューニングの性能および分散への影響を分離するためのアブレーションスタディを実施した。

実験結果

リサーチクエスチョン

RQ1ハイパーパrameterチューニングによって、LRGBにおけるGraph TransformersとMPGNNsの性能差はどの程度縮まるか？
RQ2入力特徴量の正規化は、視覚ベースのLRGBデータセットにおけるMPGNNスコアにどのように影響するか？
RQ3ネガティブサンプルのフィルタリング戦略を変更した場合、PCQM-Contactのリンク予測タスクにおけるMRRスコアにどのような影響があるか？
RQ4MPGNNsが最適な設定にチューニングされた場合、LRGBにおけるGraph Transformersの性能優位性は維持されるか？
RQ5予測ヘッドアーキテクチャの選択は、グラフ学習タスクにおける長距離依存性のモデル化にどのような役割を果たすか？

主な発見

ハイパーパrameterチューニング後、GCNとGatedGCNはPeptides-StructでGPSを上回り、それぞれ0.2460および0.2477のMAEという最先端のスコアを達成した。
チューニング後、Peptides-StructおよびPeptides-Funcにおいて、Graph TransformersとMPGNNsの性能差は消え、MPGNNsが同等またはそれ以上の結果を達成した。
特徴量正規化により、PascalVOC-SPおよびCOCO-SPのF1スコアが最大10ポイント向上し、GPSはそれぞれ44.40%および38.84%のF1スコアを達成した。
ハイパーパramータチューニングにより、PCQM-ContactのMRRスコアは約3%上昇し、自己ループを除外したフィルタリングでは最大10ポイント上昇した。
PCQM-Contactにおける元々のGPSの優位性は、適切なフィルタリングとチューニングの下では再現不可能であり、拡張フィルタリング設定ではGPSがMPGNNsをわずかに上回るにとどまった。
フィルタリング戦略、特に自己ループの削除がMRRに大きな影響を与えることが示され、メトリクスの実装細部がモデル比較に顕著に影響することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。