Skip to main content
QUICK REVIEW

[論文レビュー] Pitfalls of Graph Neural Network Evaluation

Oleksandr Shchur, Maximilian Mumme|arXiv (Cornell University)|Nov 14, 2018
Advanced Graph Neural Networks参考文献 19被引用数 632
ひとこと要約

この論文は、GNNアーキテクチャの公正な比較には標準化されたトレーニング、ハイパーパラメータ調整、および複数データ分割が必要であり、そうでなければ評価設定次第で単純なモデルが複雑なものを上回ることがある、ということを示している。

ABSTRACT

Semi-supervised node classification in graphs is a fundamental problem in graph mining, and the recently proposed graph neural networks (GNNs) have achieved unparalleled results on this task. Due to their massive success, GNNs have attracted a lot of attention, and many novel architectures have been put forward. In this paper we show that existing evaluation strategies for GNN models have serious shortcomings. We show that using the same train/validation/test splits of the same datasets, as well as making significant changes to the training procedure (e.g. early stopping criteria) precludes a fair comparison of different architectures. We perform a thorough empirical evaluation of four prominent GNN models and show that considering different splits of the data leads to dramatically different rankings of models. Even more importantly, our findings suggest that simpler GNN architectures are able to outperform the more sophisticated ones if the hyperparameters and the training procedure are tuned fairly for all models.

研究の動機と目的

  • 標準的および変化したトレーニング/評価設定の下で、GNNアーキテクチャ間の経験的比較の信頼性を評価する。
  • 複数のデータセットにおいて、異なる訓練/検証/テスト分割がモデルのランキングにどのように影響するかを評価する。
  • 公正なハイパーパラメータ調整が、より簡易なモデルをより洗練されたGNNよりも上回ることを示す。

提案手法

  • 公正な比較のための統一フレームワーク内で、4つのGNNアーキテクチャ(GCN、MoNet、GAT、GraphSAGE)を実装する。
  • モデル間でトレーニング手順(オプティマイザ、初期化、アーリーストッピング、バッチ戦略)を標準化し、包括的なハイパーパラメータのグリッド探索を実施する。
  • 8つのデータセット(4つの有名なデータセットと4つの新しいデータセット)を対象に、各分割100回のランダム分割と各分割につき20回の初期化で評価する。
  • データ分割の頑健性を評価するため、データセットごとの結果と相対的な性能指標の両方を報告する。

実験結果

リサーチクエスチョン

  • RQ1異なる訓練/検証/テスト分割は、GNNアーキテクチャの相対的な性能にどのように影響するか?
  • RQ2モデル間で公正なハイパーパラメータ調整を行うと、どのアーキテクチャが優れていると見なされるかが変わるか?
  • RQ3評価を標準化して複数の分割で平均した場合、単純なモデル(例:GCN)は複雑なモデルを上回るか?
  • RQ4多様なグラフデータセットにおける報告される性能に対する評価設定の影響は何か?

主な発見

  • GNNベースのモデルはデータセット全体で一般にベースラインを上回るが、公正に評価した場合、単一のアーキテクチャが支配的であるとは限らない。
  • GCNがしばしば最上位にランクされ、性能を最良の分割で正規化した場合、より単純なモデルがより複雑なものと互角、あるいはそれを上回る可能性を示している。
  • データ分割が異なるとモデルのランキングは劇的に変化し、単一の分割からの結果は誤解を招く可能性がある。
  • 一部のモデル(例:AmazonデータセットのGAT)では重み初期化により極端に高い分散が生じ、平均性能に影響を与える。
  • 複数の分割を使用することで、性能差の大部分はアーキテクチャそのものよりもハイパーパラメータ調整とトレーニング手順によって生じることが明らかになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。