QUICK REVIEW

[論文レビュー] A Fair Comparison of Graph Neural Networks for Graph Classification

Federico Errica, Marco Podda|arXiv (Cornell University)|Dec 20, 2019

Advanced Graph Neural Networks参考文献 29被引用数 118

ひとこと要約

この論文は、グラフ分類のための5つのGNNアーキテクチャを9データセットで大規模・標準化・再現性のある公平な評価を行い、構造に依存しないベースラインを含めて、グラフトポロジーからの真の利得と次数特徴の影響を評価する。

ABSTRACT

Experimental reproducibility and replicability are critical topics in machine learning. Authors have often raised concerns about their lack in scientific publications to improve the quality of the field. Recently, the graph representation learning field has attracted the attention of a wide research community, which resulted in a large stream of works. As such, several Graph Neural Network models have been developed to effectively tackle graph classification. However, experimental procedures often lack rigorousness and are hardly reproducible. Motivated by this, we provide an overview of common practices that should be avoided to fairly compare with the state of the art. To counter this troubling trend, we ran more than 47000 experiments in a controlled and uniform framework to re-evaluate five popular models across nine common benchmarks. Moreover, by comparing GNNs with structure-agnostic baselines we provide convincing evidence that, on some datasets, structural information has not been exploited yet. We believe that this work can contribute to the development of the graph learning field, by providing a much needed grounding for rigorous evaluations of graph classification models.

研究の動機と目的

GNNグラフ分類研究の再現性の問題を強調し、標準化された評価フレームワークを確立する。
同じデータ分割と同一ノード特徴量の下で5つの人気GNNアーキテクチャを再評価する。
構造に依存しないベースラインを用いて、ノード特徴量を超える構造情報の寄与を評価する。
ソーシャルグラフでノード次数特徴を入力特徴として含めた場合の性能と、必要なモデル深さへの影響を調査する。
今後の厳密な比較を可能にする公開コードとデータ分割を提供する。

提案手法

グラフ分類研究における再現性の一般的な落とし穴を検討し、厳格な評価プロトコルを定義する。
モデル評価には10-foldクロスバリデーションを用い、モデル選択には内部の90/10分割を採用する。
同じ入力特徴量をすべてのモデルで使用し、2つの構造に依存しないベースラインと比較する。
公正な比較のために5つのGNNモデル（DGCNN、DiffPool、ECC、GIN、GraphSAGE）をPyTorch Geometricで再実装する。
9データセット（4つの化学系、5つのソーシャル）で評価し、平均精度と標準偏差を報告する。
複製を可能にするためにコードとデータ分割を公開する。

実験結果

リサーチクエスチョン

RQ1最先端のGNNがグラフ分類ベンチマークで、シンプルな構造に依存しないベースラインをどの程度上回るか。
RQ2グラフ構造とノード特徴の寄与はどの程度の性能向上につながるか。
RQ3ノード次数を入力特徴として含めることは、ソーシャルグラフで一貫して結果を改善し、必要なモデル深さに影響を与えるか。
RQ4現在のGNNが構造に依存しないベースラインを超えられず、トポロジーが過少活用されているデータセットはあるか。

主な発見

D&D	NCI1	PROTEINS	ENZYMES
Baseline	78.4±4.5	69.8±2.2	75.8±3.7	65.2±6.4
DGCNN	76.6±4.3	76.4±1.7	72.9±3.5	38.9±5.7
DiffPool	75.0±3.5	76.9±1.9	73.7±3.5	59.5±5.6
ECC	72.6±4.1	76.2±1.4	72.3±3.4	29.5±8.2
GIN	75.3±2.9	80.0±1.4	73.3±4.0	59.6±4.5
GraphSAGE	72.9±2.0	76.0±1.8	73.0±4.5	58.2±6.0

いくつかの化学データセット（D&D、PROTEINS、ENZYMES）では、構造に依存しないベースラインがGNNを上回るか同等である。
NCI1では、GNNがグラフ構造を明確に活用し、ベースラインを上回っている。
ソーシャルデータセットでは、ノード次数特徴の追加が一般に性能を向上させ、いくつかのモデルで必要な層数を減らすことがある。
GINはソーシャルデータセットで高い性能を示す一方で、化学データセットのいくつかではベースラインが依然として競合している。
次数特徴を含めるとベースラインの性能が大幅に向上し、モデルの相対的なランキングを変えることがある。
本研究は、グラフ分類における公正な評価と再現性のためのベースラインの重要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。