QUICK REVIEW

[論文レビュー] Bag of Tricks for Node Classification with Graph Neural Networks

Yangkun Wang, Jiarui Jin|arXiv (Cornell University)|Mar 24, 2021

Advanced Graph Neural Networks参考文献 35被引用数 28

ひとこと要約

本論文は、GNNを用いたノード分類の実践的なテクニックを概観し、新しいラベルの使い方、ロバスト損失、アーキテクチャの調整を導入し、複数のデータセットにおいて一貫した実証的改善を示す。

ABSTRACT

Over the past few years, graph neural networks (GNN) and label propagation-based methods have made significant progress in addressing node classification tasks on graphs. However, in addition to their reliance on elaborate architectures and algorithms, there are several key technical details that are frequently overlooked, and yet nonetheless can play a vital role in achieving satisfactory performance. In this paper, we first summarize a series of existing tricks-of-the-trade, and then propose several new ones related to label usage, loss function formulation, and model design that can significantly improve various GNN architectures. We empirically evaluate their impact on final node classification accuracy by conducting ablation studies and demonstrate consistently-improved performance, often to an extent that outweighs the gains from more dramatic changes in the underlying GNN architecture. Notably, many of the top-ranked models on the Open Graph Benchmark (OGB) leaderboard and KDDCUP 2021 Large-Scale Challenge MAG240M-LSC benefit from these techniques we initiated.

研究の動機と目的

アーキテクチャの変更を超えたノード分類精度向上におけるデータ処理とトレーニングの工夫の重要性を動機づける。
入力としてラベルを使用する新しい手法と、半教師あり学習を強化するラベル再利用の新技術を導入する。
外れ値やノイズラベル下での分類を改善する頑健な損失関数ファミリーを提案する。
多様なグラフで性能を向上させるためのGATアーキテクチャと損失設計の調整を探る。

提案手法

トレーニング時および推論時に真のラベルが提供される場合にラベル使用を入力として提案し、ラベル情報を伝播させる。
前の反復で予測されたラベルをトレーニング時の入力として利用するラベル再利用を開発する。
外れ値に対する頑健性を高める分類用の頑健な損失関数ファミリー（Loge損失を含む）を導入する。
GCNやGATなどのGNNアーキテクチャを微調整し、対称正規化やエッジ特徴を考慮したバリアントを含める。
提案されたトリックを複数のデータセット（Cora、Citeseer、Pubmed、Reddit、ogbn-arxiv、ogbn-proteins、ogbn-products）で評価し、アブレーション研究を用いてバリアントを比較する。

実験結果

リサーチクエスチョン

RQ1トレーニング時と推論時の両方で入力として明示的にトレーニングラベルを使用することは、退化解を招くことなくノード分類の性能を向上させるか？
RQ2前の反復からの予測ラベルを入力として与える（ラベル再利用）が、多様なグラフに対する半教師ありGNNの性能を改善するか？
RQ3頑健で非凸に類似した損失関数（例：Loge損失）は、ノード分類のためのGNNトレーニングにおける伝統的な損失とどう比較されるか？
RQ4異なるグラフデータセットで最良の性能を発揮するGATと隣接正規化のバリアントはどれか？
RQ5提案されたトリックは、OGBリーダーボードの上位モデルで観察される性能向上を総合的に説明できるか？

主な発見

ラベルを入力として使用する手法とラベル再利用技術は、中程度のラベル割合を持つ大規模データセットの精度を一貫して向上させる。
Loge損失は複数のデータセットでロジスティック損失やSavage損失をしばしば上回り、決定境界近くでの勾配特性が有利である。
対称正規化済み隣接行列を用いたGATのバリアントは、複数のデータセットで通常ベースのGATを上回り、エッジ特徴を持つバリアントはタンパク質データで大きな改善をもたらすことがある。
ラベル活用の工夫を既存の手法（例：C&S）と組み合わせると、さらに改善が得られる。
ogbn-proteinsのような大規模データセットでは、エッジ特徴を持つ提案のGATが顕著なROC-AUC向上を達成し、強い頑健性と適用性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。