[論文レビュー] GNNEvaluator: Evaluating GNN Performance On Unseen Graphs Without Labels
GNNEvaluatorを提案する、DiscGraphセットを用いた2段階フレームワークで、ラベルなしの未見グラフに対する学習済みGNNのノード分類精度を推定。複数データセットで適応CNNベースラインよりMAEが低い。
Evaluating the performance of graph neural networks (GNNs) is an essential task for practical GNN model deployment and serving, as deployed GNNs face significant performance uncertainty when inferring on unseen and unlabeled test graphs, due to mismatched training-test graph distributions. In this paper, we study a new problem, GNN model evaluation, that aims to assess the performance of a specific GNN model trained on labeled and observed graphs, by precisely estimating its performance (e.g., node classification accuracy) on unseen graphs without labels. Concretely, we propose a two-stage GNN model evaluation framework, including (1) DiscGraph set construction and (2) GNNEvaluator training and inference. The DiscGraph set captures wide-range and diverse graph data distribution discrepancies through a discrepancy measurement function, which exploits the outputs of GNNs related to latent node embeddings and node class predictions. Under the effective training supervision from the DiscGraph set, GNNEvaluator learns to precisely estimate node classification accuracy of the to-be-evaluated GNN model and makes an accurate inference for evaluating GNN model performance. Extensive experiments on real-world unseen and unlabeled test graphs demonstrate the effectiveness of our proposed method for GNN model evaluation.
研究の動機と目的
- 共変量シフト下で、未見かつラベルなしのグラフ上で学習済みGNNを評価する問題に対処する。
- 分布の差異をシミュレートする2段階フレームワークを開発し、精度推定器を学習する。
- 固定されたGNNから得られる潜在埋め込みと予測を活用して、差異表現を構築する。
- ground-truthラベルを用いずに、未ラベルのテストグラフ上で推定精度を出力する推論手順を提供する。
提案手法
- 観測済みのトレーニンググラフから種子サブグラフを抽出し、多様なオーギュメンテーションを適用し、GNN潜在埋め込みから差異属性を計算してDiscGraphセットを構築する。
- 埋め込み空間を正規化してメタグラフとトレーニンググラフ間のノード差異特徴を作成する、差異計測関数Dを定義する。
- DiscGraphを、 ground-truthラベル上の実際のノード分類精度でラベル付けし、訓練データとして y_disc^{i} を作成する。
- DiscGraphごとにスカラー精度推定値を出力する2層GCN回帰モデルとしてGNNEvaluatorを訓練する。 pooling層を用いる。
- 推論時には、未見グラフTの差異特徴をSに対して計算し、ラベルを必要とせずに訓練済みのGNNEvaluatorを用いてAcc(T)を推定する。
実験結果
リサーチクエスチョン
- RQ1GNNEvaluatorは、未見のラベルなしグラフ上で学習済みGNNのノード分類精度を正確に推定できるか。
- RQ2DiscGraphベースのアプローチは、さまざまな未見グラフ分布の下で他の評価手法と比較してどの程度優れているか。
- RQ3差異ノード属性が評価精度に与える寄与は何か。
- RQ4GNNのタイプとデータセットが異なる場合、ロバストな評価のために必要なDiscGraphの数はいくつか。
主な発見
- GNNEvaluatorは、6つの評価シナリオ(例:平均値10.71、12.86、16.38、10.71、6.79、7.80、6つのクロスデータセット設定)全般で、適応CNNベースラインより一貫してMAEが低い。
- 差異属性を備えたDiscGraphセットは、差異情報を持たないメタグラフセットよりも信頼性の高い評価を提供し、GNNタイプ間の評価分散を低減する。
- データセットACMv9、DBLPv8、Citationv2を横断して、GNNEvaluatorはGCN、GraphSAGE、GAT、GINモデル(および基準のMLP)を多様なin-service-training/test分割で評価する際に高い性能を示す。
- アブレーション研究により、差異ノード属性(DiscAttr)を含めることは、差異情報なしのメタグラフのみを用いる場合より評価精度を改善する。
- 可視化と分析は、DiscGraphの差異属性がトレーニンググラフと未見グラフ間の埋め込み空間の意味ある差を捉えることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。