[論文レビュー] InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization
InfoGraph は、グラフレベルの表現と多尺度の部分構造間の情報の最大化によって、固定長のグラフ埋め込みを学習します。InfoGraph* は、ラベルなしデータを活用するために半教師あり学習へと拡張します。
This paper studies learning the representations of whole graphs in both unsupervised and semi-supervised scenarios. Graph-level representations are critical in a variety of real-world applications such as predicting the properties of molecules and community analysis in social networks. Traditional graph kernel based methods are simple, yet effective for obtaining fixed-length representations for graphs but they suffer from poor generalization due to hand-crafted designs. There are also some recent methods based on language models (e.g. graph2vec) but they tend to only consider certain substructures (e.g. subtrees) as graph representatives. Inspired by recent progress of unsupervised representation learning, in this paper we proposed a novel method called InfoGraph for learning graph-level representations. We maximize the mutual information between the graph-level representation and the representations of substructures of different scales (e.g., nodes, edges, triangles). By doing so, the graph-level representations encode aspects of the data that are shared across different scales of substructures. Furthermore, we further propose InfoGraph*, an extension of InfoGraph for semi-supervised scenarios. InfoGraph* maximizes the mutual information between unsupervised graph representations learned by InfoGraph and the representations learned by existing supervised methods. As a result, the supervised encoder learns from unlabeled data while preserving the latent semantic space favored by the current supervised task. Experimental results on the tasks of graph classification and molecular property prediction show that InfoGraph is superior to state-of-the-art baselines and InfoGraph* can achieve performance competitive with state-of-the-art semi-supervised models.
研究の動機と目的
- 無監督学習および半教師あり設定でうまく機能するグラフレベル表現の学習を動機づける。
- 手作りのグラフカーネルと部分木焦点の埋め込みの限界を克服する。
- グラフ分類および分子特性予測に適した表現を実現する。
- 複数尺度のパッチ情報を活用して、グラフ間で共有される構造を捉える。
提案手法
- グラフのグローバル表現と多尺度のパッチ表現との間の情報量を最大化する。
- ノード/パッチ埋め込みを得るために Graph Isomorphism Network (GIN) エンコーダを使用し、READOUT でグローバルなグラフ表現を形成する。
- 層を跨るパッチ表現を結合して多尺度特徴を形成し、Jensen-Shannon MI estimator で最適化する。
- 効果的な対比学習のためにバッチ単位のネガティブサンプリングを用いて多数の正例/負例ペアを生成する。
- InfoGraph* は2つのエンコーダ(監視下あり/なし)を導入し、それらの中間表現間の情報量を最大化して知識を転移する。
- Discriminator Tψ は (global, patch) ペアをスコアし、表現間のMIを推定する(Eq. 4)。開示はバッチ単位のサンプリングとMI推定を参照する(Eq. 5)。
実験結果
リサーチクエスチョン
- RQ1グラフレベルと部分構造レベルの表現間の情報量最大化は、効果的な無監督グラフ埋め込みを生み出すか。
- RQ2半教師ありの student-teacher 形式フレームワーク(InfoGraph*)を組み込むと、分子特性予測の性能が向上するか。
- RQ3InfoGraph は、標準ベンチマークで伝統的なグラフカーネルや従来の無監督グラフ表現法とどのように比較されるか。
- RQ4複数尺度のパッチ表現がグラフレベルの埋め込みの品質に与える影響は何か。
主な発見
| 手法 | MUTAG | PTC-MR | REDDIT-B | REDDIT-M5K | IMDB-B | IMDB-M |
|---|---|---|---|---|---|---|
| RW | 83.72±1.50 | 57.85±1.30 | OMR | OMR | 50.68±0.26 | 34.65±0.19 |
| SP | 85.22±2.43 | 58.24±2.44 | 64.11±0.14 | 39.55±0.22 | 55.60±0.22 | 37.99±0.30 |
| GK | 81.66±2.11 | 57.26±1.41 | 77.34±0.18 | 41.01±0.17 | 65.87±0.98 | 43.89±0.38 |
| WL | 80.72±3.00 | 57.97±0.49 | 68.82±0.41 | 46.06±0.21 | 72.30±3.44 | 46.95±0.46 |
| DGK | 87.44±2.72 | 60.08±2.55 | 78.04±0.39 | 41.27±0.18 | 66.96±0.56 | 44.55±0.52 |
| MLG | 87.94±1.61 | 63.26±1.48 | >1 Day | >1 Day | 66.55±0.25 | 41.17±0.03 |
| node2vec | 72.63±10.20 | 58.58±8.00 | - | - | - | - |
| sub2vec | 61.05±15.80 | 59.99±6.38 | 71.48±0.41 | 36.68±0.42 | 55.26±1.54 | 36.67±0.83 |
| graph2vec | 83.15±9.25 | 60.17±6.86 | 75.78±1.03 | 47.86±0.26 | 71.1±0.54 | 50.44±0.87 |
| InfoGraph | 89.01±1.13 | 61.65±1.43 | 82.50±1.42 | 53.46±1.03 | 73.03±0.87 | 49.69±0.53 |
- InfoGraph は6つのベンチマークデータセットのうち4つで最先端のグラフカーネルより優れ、他でも高い競争力を維持する。
- 半教師あり分子特性予測で、InfoGraph* は12ターゲット中11で最良結果を達成し、多くの場合 Mean Teacher を上回る。
- InfoGraph は無監督MIベースの学習とバッチ単位のネガティブサンプリング、GINエンコーダを組み合わせて強力なグラフレベル表現を生み出す。
- InfoGraph は無監督および半教師あり学習パラダイムを用いたグラフ分類および分子特性予測で競争力のある性能を示す。
- 本稿は、ナイーブな結合目的関数によるネガティブ転移現象を議論し、2つのエンコーダとMIベースのアライメント(Eq. 8)を用いるInfoGraph* により対処される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。