[論文レビュー] Self-supervised Graph-level Representation Learning with Local and Global Structure
GraphLoGは、オンラインEMアルゴリズムと階層プロトタイプを用いて、グラフ表現における局所インスタンスの類似性とグローバルな意味構造を共同でモデル化する自己教師ありフレームワークを提案し、化学・生物学のベンチマークで優れた結果を達成する。
This paper studies unsupervised/self-supervised whole-graph representation learning, which is critical in many tasks such as molecule properties prediction in drug and material discovery. Existing methods mainly focus on preserving the local similarity structure between different graph instances but fail to discover the global semantic structure of the entire data set. In this paper, we propose a unified framework called Local-instance and Global-semantic Learning (GraphLoG) for self-supervised whole-graph representation learning. Specifically, besides preserving the local similarities, GraphLoG introduces the hierarchical prototypes to capture the global semantic clusters. An efficient online expectation-maximization (EM) algorithm is further developed for learning the model. We evaluate GraphLoG by pre-training it on massive unlabeled graphs followed by fine-tuning on downstream tasks. Extensive experiments on both chemical and biological benchmark data sets demonstrate the effectiveness of the proposed approach.
研究の動機と目的
- ラベル付きデータが乏しい設定での全グラフ表現の学習を促進する。
- 相関するグラフと部分グラフの埋め込みを整列させることで局所インスタンス構造を保持する。
- 階層型プロトタイプを用いてグローバルな意味構造を捉え、有意義な意味クラスタを形成する。
- GNNパラメータと階層プロトタイプを同時に学習するオンラインEMアルゴリズムを開発する。
- 大規模なラベルなしグラフでの事前学習を経て下流タスクの微調整を行い、有効性を示す。
提案手法
- 局所インスタンス構造を、潜在空間におけるグラフ/サブグラフ間のペアワイズ類似性を保持することとして定義し、相関のあるペアの類似性を最大化し、ネガティブを対比する。
- 属性をマスクしてGとG'を作成し、L層のGNNで埋め込みを計算することにより、相関のあるグラフ/サブグラフのペアを導入する。
- ツリー状に整理された階層プロトタイプとしてグローバル意味構造をモデル化し、潜在クラスタを表現するプロトタイプ割り当てZを学習する。
- オンラインEM手順を用いて、潜在プロトタイプ割り当てを交互にサンプリングする(Eステップ)と、ミニバッチ目的で期待完結データ尤度を最大化する(Mステップ)。
- エネルギーに基づく定式化 p(G, z_G|θ, C) ∝ exp(f(h_G, z_G)) を採用し、正例と負例を対比するためにノイズ対比推定で最適化する。
- 局所目的でGNNを事前学習し、K-meansでプロトタイプを初期化し、その後ミニバッチでオンラインEMを実行してθとCを下流タスクのために洗練させる。
実験結果
リサーチクエスチョン
- RQ1自己教師あり学習は、グラフ間の局所的な類似性とグラフ集合のグローバルな意味構造の両方をいかに捉えることができるか?
- RQ2階層プロトタイプは、大規模なラベルなしグラフ集合におけるグローバル意味クラスタを効果的に発見・洗練できるか?
- RQ3オンラインEMフレームワークを通じて局所・グローバル目的を統合することは、下流のグラフ分類/回帰タスクの性能を向上させるか?
- RQ4GraphLoGは大規模なラベルなしグラフデータに対してスケーラブルであり、化学および生物学ドメインに移転可能か?
主な発見
| 手法 | BBBP | Tox21 | ToxCast | SIDER | ClinTox | MUV | HIV | BACE | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Random | 65.8±4.5 | 74.0±0.8 | 63.4±0.6 | 57.3±1.6 | 58.0±4.4 | 71.8±2.5 | 75.3±1.9 | 70.1±5.4 | 67.0 |
| EdgePred (2016) | 67.3±2.4 | 76.0±0.6 | 64.1±0.6 | 60.4±0.7 | 64.1±3.7 | 74.1±2.1 | 76.3±1.0 | 79.9±0.9 | 70.3 |
| InfoGraph (2019) | 68.2±0.7 | 75.5±0.6 | 63.1±0.3 | 59.4±1.0 | 70.5±1.8 | 75.6±1.2 | 77.6±0.4 | 78.9±1.1 | 71.1 |
| AttrMasking (2019) | 64.3±2.8 | 76.7±0.4 | 64.2±0.5 | 61.0±0.7 | 71.8±4.1 | 74.7±1.4 | 77.2±1.1 | 79.3±1.6 | 71.1 |
| ContextPred (2019) | 68.0±2.0 | 75.7±0.7 | 63.9±0.6 | 60.9±0.6 | 65.9±3.8 | 75.8±1.7 | 77.3±1.0 | 79.6±1.2 | 70.9 |
| GraphPartition (2020b) | 70.3±0.7 | 75.2±0.4 | 63.2±0.3 | 61.0±0.8 | 64.2±0.5 | 75.4±1.7 | 77.1±0.7 | 79.6±1.8 | 70.8 |
| GraphCL (2020a) | 69.5±0.5 | 75.4±0.9 | 63.8±0.4 | 60.8±0.7 | 70.1±1.9 | 74.5±1.3 | 77.6±0.9 | 78.2±1.2 | 71.3 |
| GraphLoG (ours) | 72.5±0.8 | 75.7±0.5 | 63.5±0.7 | 61.2±1.1 | 76.7±3.3 | 76.0±1.1 | 77.8±0.8 | 83.5±1.2 | 73.4 |
- GraphLoGは化学分子特性ベンチマークで従来のいくつかの自己教師付きグラフ法を上回り、平均ROC-AUCが73.4、8タスクでの平均ROC-AUCの向上が2.1%である。
- 化学タスクでは、GraphLoGは8個の下流タスクでAvg ROC-AUC 73.4を達成し、Table 1のリストされたベースラインに対して最も高い平均を示した。
- 生物学タスクでは、GraphLoGはROC-AUC 72.9を達成し、Table 2に記載された他のベースラインを上回る。
- 消去研究と可視化分析は、階層プロトタイプを介したグローバル構造学習を取り入れる利点を示している。
- グラフLoGを用いた大規模なラベルなしグラフでの事前学習と下流タスクへの線形プロービングは、ラベルデータが乏しい設定で性能向上をもたらす。
- 提案されたオンラインEM戦略は、GNNパラメータと階層プロトタイプを共同で更新し、グローバルな意味構造の段階的な発見と洗練を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。