QUICK REVIEW

[論文レビュー] Self-supervised Graph-level Representation Learning with Local and Global Structure

Minghao Xu, Hang Wang|arXiv (Cornell University)|Jun 8, 2021

Computational Drug Discovery Methods参考文献 59被引用数 44

ひとこと要約

GraphLoG はオンラインEMアルゴリズムと階層プロトタイプを用いて局所-インスタンスの類似性と全体階層的意味構造の両方を学習し、全グラフ表現を得る自己教師付きフレームワークで、化学と生物学のタスクで下流性能を強化する。

ABSTRACT

This paper studies unsupervised/self-supervised whole-graph representation\nlearning, which is critical in many tasks such as molecule properties\nprediction in drug and material discovery. Existing methods mainly focus on\npreserving the local similarity structure between different graph instances but\nfail to discover the global semantic structure of the entire data set. In this\npaper, we propose a unified framework called Local-instance and Global-semantic\nLearning (GraphLoG) for self-supervised whole-graph representation learning.\nSpecifically, besides preserving the local similarities, GraphLoG introduces\nthe hierarchical prototypes to capture the global semantic clusters. An\nefficient online expectation-maximization (EM) algorithm is further developed\nfor learning the model. We evaluate GraphLoG by pre-training it on massive\nunlabeled graphs followed by fine-tuning on downstream tasks. Extensive\nexperiments on both chemical and biological benchmark data sets demonstrate the\neffectiveness of the proposed approach.\n

研究の動機と目的

化学や生物学のようなドメインのために無监督設定で情報豊富な全グラフ表現を学習する動機付け。
階層プロトタイプによるグローバルセマンティッククラスタリングを組み込むことにより、局所構造のみを捉える従来手法の制限を解決する。
GraphLoGを提案します、局所的な目的とグローバルな目的を共同で最適化して堅牢なグラフ埋め込みを学習する。
大規模なラベルなしグラフ上で事前学習を行い、ラベルが乏しい下流タスクに微調整する。

提案手法

元のグラフと相関した（マスクされた）グラフからグラフおよびサブグラフの埋め込みを得るためにGNNを用いる。
局所インスタンス学習の目的を定義し、相関ペアの類似性を最大化し、非相関ペア間のネガティブ性を最小化する（グラフおよびサブグラフレベル）。
グローバルな意味構造を潜在空間に捉えるため階層的プロトタイプをツリー状に整理して導入する。
オンラインEMアルゴリズムを適用し、Eステップ（潜在変数推論）とMステップ（期待データ対数尤度の最大化）を交互に行い、GNNパラメータとプロトタイプを共同で学習する。
グローバルな目的を、グラフとプロトタイプのペアおよびノイズ分布からサンプリングされたネガティブを用いたノイズ対照推定風の正規化されていない尤度でモデル化する。

実験結果

リサーチクエスチョン

RQ1GraphLoG はラベルなしのグラフコレクションにおいて局所インスタンス構造とグローバルセマンティッククラスタの両方を効果的に捉えられるか？
RQ2階層的プロトタイプは既存の自己教師付き手法と比較してグローバル構造表現の品質と下流タスクの性能を向上させるか？
RQ3オンラインEM は大規模グラフデータセット上で GNN パラメータと階層的プロトタイプを共同で学習する現実的で効果的な最適化戦略か？

主な発見

手法	BBBP	Tox21	ToxCast	SIDER	ClinTox	MUV	HIV	BACE	平均
ランダム	65.8±4.5	74.0±0.8	63.4±0.6	57.3±1.6	58.0±4.4	71.8±2.5	75.3±1.9	70.1±5.4	67.0
EdgePred (2016)	67.3±2.4	76.0±0.6	64.1±0.6	60.4±0.7	64.1±3.7	74.1±2.1	76.3±1.0	79.9±0.9	70.3
InfoGraph (2019)	68.2±0.7	75.5±0.6	63.1±0.3	59.4±1.0	70.5±1.8	75.6±1.2	77.6±0.4	78.9±1.1	71.1
AttrMasking (2019)	64.3±2.8	76.7±0.4	64.2±0.5	61.0±0.7	71.8±4.1	74.7±1.4	77.2±1.1	79.3±1.6	71.1
ContextPred (2019)	68.0±2.0	75.7±0.7	63.9±0.6	60.9±0.6	65.9±3.8	75.8±1.7	77.3±1.0	79.6±1.2	70.9
GraphPartition (2020b)	70.3±0.7	75.2±0.4	63.2±0.3	61.0±0.8	64.2±0.5	75.4±1.7	77.1±0.7	79.6±1.8	70.8
GraphCL (2020a)	69.5±0.5	75.4±0.9	63.8±0.4	60.8±0.7	70.1±1.9	74.5±1.3	77.6±0.9	78.2±1.2	71.3
GraphLoG (ours)	72.5±0.8	75.7±0.5	63.5±0.7	61.2±1.1	76.7±3.3	76.0±1.1	77.8±0.8	83.5±1.2	73.4

GraphLoG は強力な下流性能を達成し、Graph Isomorphism Network (GIN) を GraphLoG で事前学習した場合、従来の自己教師付き手法を6つの化学タスクで上回り、平均 ROC-AUC を 2.1% 向上させた。
化学ベンチマークでは GraphLoG は平均 ROC-AUC が 73.4%、複数のタスク（例: HIV、BACE）でいくつかのベースラインを上回る（表1に示す）。
生物学ベンチマークでは GraphLoG は ROC-AUC 72.9% を達成し、表2に挙げられた複数のベースラインを上回る。
アブレーション研究と埋め込み可視化は、局所的な類似性の保持に加えてグローバル階層構造を組み込む利点を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。