QUICK REVIEW

[論文レビュー] Combining Label Propagation and Simple Models Out-performs Graph Neural Networks

Qian Huang, Horace He|arXiv (Cornell University)|Oct 27, 2020

Advanced Graph Neural Networks参考文献 48被引用数 114

ひとこと要約

論文は Correct and Smooth (C&S) を紹介します。これは特徴量ベースの基礎予測子と2つの後処理ラベル伝播ステップ（エラー訂正と予測平滑化）を組み合わせた、GNNなしのシンプルなパイプラインで、パラメータ数が大幅に少なく、GNNよりも高速なトレーニングで、状態最先端（またはほぼ同等）の伝搬ノード分類を実現します。

ABSTRACT

Graph Neural Networks (GNNs) are the predominant technique for learning over graphs. However, there is relatively little understanding of why GNNs are successful in practice and whether they are necessary for good performance. Here, we show that for many standard transductive node classification benchmarks, we can exceed or match the performance of state-of-the-art GNNs by combining shallow models that ignore the graph structure with two simple post-processing steps that exploit correlation in the label structure: (i) an "error correlation" that spreads residual errors in training data to correct errors in test data and (ii) a "prediction correlation" that smooths the predictions on the test data. We call this overall procedure Correct and Smooth (C&S), and the post-processing steps are implemented via simple modifications to standard label propagation techniques from early graph-based semi-supervised learning methods. Our approach exceeds or nearly matches the performance of state-of-the-art GNNs on a wide variety of benchmarks, with just a small fraction of the parameters and orders of magnitude faster runtime. For instance, we exceed the best known GNN performance on the OGB-Products dataset with 137 times fewer parameters and greater than 100 times less training time. The performance of our methods highlights how directly incorporating label information into the learning algorithm (as was done in traditional techniques) yields easy and substantial performance gains. We can also incorporate our techniques into big GNN models, providing modest gains. Our code for the OGB results is at https://github.com/Chillee/CorrectAndSmooth.

研究の動機と目的

シンプルなモデルとラベル伝播の後処理が、伝搬ノード分類のベンチマークでGNNに匹敵または上回ることができるという動機付けを示す。
C&Sがはるかに少ないパラメータと高速なトレーニング時間で強い性能を達成することを示す。
後処理ステップに真のラベルを組み込むことで、有意な利益が得られることを示す。
特徴量の拡張とC&Sをより大きなGNNと組み合わせることでさらなる改善が得られるかを探る。
グラフ学習におけるラベルと単純な後処理の役割に関する示唆を論じる。

提案手法

ノード特徴量を無視して基礎予測子 f をトレーニングし、基礎予測 Z を生成する（線形モデルまたは浅いMLP）。
トレーニングノードの残差 E = Z_Lt − Y_Lt を計算し、これらの誤差をグラフ上で伝播させて、ラベル拡散のような拡散を介して補正スコア ˆE を得る（E^(t+1) = (1-α)E + α S E^(t)）。
基礎予測と平滑化された残差を組み合わせて補正予測 Z^(r) = Z + ˆE を得る（自動スケーリングまたは拡散をスケールさせたバリアントがある）。
2回目のラベル伝播ステップを実行して、最終予測をグラフ全体で平滑化する。補正スコアを入力として使用し、トレーニングラベルを真の値にリセットする（G^(0) = [Y_Lt on labeled nodes; Z^(r) on unlabeled nodes]）。G^(t+1) = (1-α)G^(t) + α S G^(t) を繰り返す。
基礎予測子を使用する前にスペクトル埋め込みでノード特徴を augment して性能を向上させることができる。
トレーニング/検証で真ラベルを使用することが、GNNのエンドツーエンド学習の有無と比較して結果をさらに改善できることを示す。

実験結果

リサーチクエスチョン

RQ1シンプルな特徴量ベースの予測子とグラフベースの後処理を組み合わせるだけで、伝搬ノード分類のベンチマークで最先端のGNN性能に匹敵または上回ることができるか。
RQ2エラー訂正伝播と予測平滑化は性能向上にどう寄与するか、autoscaleと固定拡散バリアントの役割は何か。
RQ3後処理に真ラベルを組み込む（訓練と検証）ことは、訓練ラベルのみを使用する場合と比較して結果を大幅に改善するか。
RQ4C&Sは多様なデータセットにおいて、訓練効率とパラメータ数で現代のGNNモデルとどう比較されるか。
RQ5C&Sをより複雑なGNNと組み合わせて追加の利得を得ることは可能か。

主な発見

C&Sは、より少ないパラメータで、他のベンチマークの最先端GNNを超えるか一致することが多く、トレーニング時間も数倍以上速い。
OGB-Productsデータセットでは、C&Sが既知の最良GNNを137倍少ないパラメータで超え、トレーニング時間は>100倍短縮。
後処理で真の検証ラベルを用いると（表4）、さらなる改善が得られ、最良モデルは9データセット中7データセットでSOTAを上回る。
ベーシックモデル（ラベル伝播平滑化を含む基礎予測とラベルなしでの単純平滑化）でも、多くのデータセットでプレーンなGCNを上回ることがあり、平滑化された出力の価値を示している。
単純な基礎予測子（線形または浅いMLP）と後処理を用いたC&Sは、Arxiv、Products、Cora、Citeseer、Pubmed、Email、Rice31、US County、wikiCSなどのデータセットでSOTAベースラインを上回る、あるいは接近することができる。特徴量拡張と追加ラベルの使用でさらなる利点が得られる。
このアプローチは大幅なスピードアップとパラメータ効率を示しており、古典的な手法を用いてラベル情報を直接取り入れることが、 substantial な性能向上をもたらすことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。