[論文レビュー] Self-Supervised Graph Transformer on Large-Scale Molecular Data
GROVERは自己教師ありタスクで10Mの未ラベル分子に対してグラフ変換器を事前学習し、ファインチューニング後に11 MoleculeNet benchmarksで平均>6%の大きな改善を達成。
How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for molecular representation learning. Nevertheless, two issues impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capability to new-synthesized molecules. To address them both, we propose a novel framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node-, edge- and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks into the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules -- the biggest GNN and the largest training dataset in molecular representation learning. We then leverage the pre-trained GROVER for molecular property prediction followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) from current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.
研究の動機と目的
- 限られたラベルデータと大規模な化学空間の下で、頑健な分子表現の必要性を動機づける。
- 分子グラフの一般化を向上させる自己教師あり事前訓練フレームワークを提案する。
- グラフ認識型アテンションと動的メッセージパッシングを備えたTransformerベースのエンコーダを設計する。
- 大規模な未ラベルデータでの事前学習が下流の分子特性予測を向上させることを示す。
提案手法
- GROVERを導入する:ノードとエッジGNNトランスフォーマを組み合わせた自己教師付きメッセージパッシング・トランスフォーマからのグラフ表現。
- 2層情報抽出を使用:GNNベースのクエリ/キー/バリューが全ノードに対してトランスフォーマーエンコーダを供給。
- ランダム化ホップ数を用いた動的メッセージパッシング(dyMPN)を実装し、一般化を向上させる。
- ノード/エッジの文脈的特性予測をノード/エッジレベルの自己監督学習として設計する。
- RDKit検出モチーフをグラフ表現の多ラベルターゲットとして使用したグラフレベルのモチフ予測を追加する。
- 11Mの未ラベル分子(ZINC15, ChEMBL)で事前学習、100Mパラメータモデルを250GPUで。
実験結果
リサーチクエスチョン
- RQ1大規模な未ラベル分子グラフでの自己教師付き事前訓練は、ファインチューニング後の下流特性予測を改善できるか?
- RQ2グラフ認識型Transformerエンコーダと動的メッセージパッシングは、従来のGNNと比較して優れた表現を生み出すか?
- RQ3文脈対応ノード/エッジおよびモチフベースのグラフレベル前駆タスクが性能と一般化に与える影響は?
- RQ4MoleculeNetベンチマークで、モデルサイズと学習データの増加に対してGROVERはどのようにスケールするか?
主な発見
| 手法 | BBBP | SIDER | ClinTox | BACE | Tox21 | ToxCast |
|---|---|---|---|---|---|---|
| TF_Robust (baseline) | 0.860 (0.087) | 0.607 (0.033) | 0.765 (0.085) | 0.824 (0.022) | 0.698 (0.012) | 0.585 (0.031) |
| GraphConv (baseline) | 0.877 (0.036) | 0.593 (0.035) | 0.845 (0.051) | 0.854 (0.011) | 0.772 (0.041) | 0.650 (0.025) |
| Weave (baseline) | 0.837 (0.065) | 0.543 (0.034) | 0.823 (0.023) | 0.791 (0.008) | 0.741 (0.044) | 0.678 (0.024) |
| SchNet (baseline) | 0.847 (0.024) | 0.545 (0.038) | 0.717 (0.042) | 0.750 (0.033) | 0.767 (0.025) | 0.679 (0.021) |
| MPNN (baseline) | 0.913 (0.041) | 0.595 (0.030) | 0.879 (0.054) | 0.815 (0.044) | 0.808 (0.024) | 0.691 (0.013) |
| DMPNN (baseline) | 0.919 (0.030) | 0.632 (0.023) | 0.897 (0.040) | 0.852 (0.053) | 0.826 (0.023) | 0.718 (0.011) |
| MGCN (baseline) | 0.850 (0.064) | 0.552 (0.018) | 0.634 (0.042) | 0.734 (0.030) | 0.707 (0.016) | 0.663 (0.009) |
| AttentiveFP (baseline) | 0.908 (0.050) | 0.605 (0.060) | 0.933 (0.020) | 0.863 (0.015) | 0.807 (0.020) | 0.579 (0.001) |
| N-GRAM (pretrained) | 0.912 (0.013) | 0.632 (0.005) | 0.855 (0.037) | 0.876 (0.035) | 0.769 (0.027) | - |
| Hu. et.al (pretrained) | 0.915 (0.040) | 0.614 (0.006) | 0.762 (0.058) | 0.851 (0.027) | 0.811 (0.015) | 0.714 (0.019) |
| GROVER_base (pretrained) | 0.936 (0.008) | 0.656 (0.006) | 0.925 (0.013) | 0.878 (0.016) | 0.819 (0.020) | 0.723 (0.010) |
| GROVER_large (pretrained) | 0.940 (0.019) | 0.658 (0.023) | 0.944 (0.021) | 0.894 (0.028) | 0.831 (0.025) | 0.737 (0.010) |
- GROVERはすべての11データセットで一貫して最高の性能を達成し、平均相対改善は6.1%(分類で2.2%、回帰で10.8%)。
- GROVER_largeはすべてのデータセットで最先端ベースラインを上回り、GROVER_baseは11データセット中8データセットで上回る。
- 自己教師付き事前訓練は、分類タスクで事前訓練なしと比較して平均AUCを3.8%向上させ、小規模データセットに特に有用。
- アブレーションでは、GROVERのGTransformerバックボーンはGINおよびMPNNのバックボーンより優れており、表現力が高いことを確認; dyMPNは学習損失の影響は小さいものの一般化を改善。
- 小ラベル環境(例:FreeSolv)で顕著な向上を達成し、SOTAに対して23.9%の相対改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。