Skip to main content
QUICK REVIEW

[論文レビュー] GROVER: Self-supervised Message Passing Transformer on Large-scale Molecular Data.

Yu Rong, Yatao Bian|arXiv (Cornell University)|Jun 18, 2020
Computational Drug Discovery Methods参考文献 25被引用数 12
ひとこと要約

GROVER は、1000万個のラベルなし分子を用いてノード、エッジ、グラフレベルの事前学習タスクを活用することで、表現力のある構造的・意味的特徴を学習する自己教師付きメッセージパッシング変換器です。微調整後、11の下流分子性質予測ベンチマークで平均6%以上の向上を達成し、最先端の性能を発揮します。

ABSTRACT

How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for task-specific and data-driven molecular representation learning. Nevertheless, two dark clouds impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capabilities to new-synthesized molecules. To address them both, we propose a novel molecular representation framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node, edge and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks with the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules---the biggest GNN and the largest training dataset that we have ever met. We then leverage the pre-trained GROVER to downstream molecular property prediction tasks followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) over current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.

研究の動機と目的

  • 分子性質予測のための教師ありGNN学習におけるラベル付き分子の不足を解決すること。
  • 現在のGNNが誘導バイアスが限られているため、新規に合成された分子への一般化を向上させること。
  • 大規模なラベルなしデータ上で教師なしで豊かな分子表現を学習するための事前学習フレームワークを開発すること。
  • メッセージパッシングと変換器アーキテクチャを統合し、より表現力のある分子エンコーダーを構築すること。
  • 適切に設計された自己教師学習と表現力のあるモデルが、分子表現学習における性能を顕著に向上させることを実証すること。

提案手法

  • GROVER は、メッセージパッシングネットワークと変換器風のアテンションメカニズムを組み合わせたハイブリッドアーキテクチャを採用し、分子グラフ内の長距離依存関係や複雑な構造的パターンを捉える。
  • マスクされたノード予測、マスクされたエッジ予測、グラフレベル再構成の3つの自己教師付き事前学習タスクを導入し、多段階の表現学習を可能にしている。
  • 人為的ラベルなしで、構造的および意味的特徴を学習するために、大規模な自己教師学習目的関数を用いて1000万個のラベルなし分子でモデルを事前学習する。
  • 下流の分子性質予測タスクにおいて、最小限のラベル付きデータで事前学習済みのGROVERエンコーダーを微調整し、トランスファーラーニングを活用する。
  • ノードおよびエッジ特徴の両方にアテンションを適用するアーキテクチャを採用し、標準のGNNを上回る表現力を実現する。
  • スケーラブルで効率的なフレームワークであり、1000万個の分子データセットでの事前学習が可能で、これまでにない規模のGNN事前学習設定の一つである。

実験結果

リサーチクエスチョン

  • RQ1大規模なラベルなし分子データに対する自己教師付き事前学習は、未観測の分子への一般化を向上させることができるか?
  • RQ2メッセージパッシングと変換器アテンションを組み合わせることで、標準のGNNと比較して分子表現学習がどのように向上するか?
  • RQ3ノード、エッジ、グラフの多段階自己教師学習が、下流の分子性質予測性能に与える影響は何か?
  • RQ4大規模な事前学習済みGROVERモデルは、最小限の微調整で、既存の最先端手法をどれほど上回るか?
  • RQ5表現力のあるアーキテクチャと適切に設計された事前学習目的関数は、多様な分子予測ベンチマーク全体で一貫した性能向上をもたらすか?

主な発見

  • GROVER は、最先端の手法と比較して、11の挑戦的な分子性質予測ベンチマークで平均6%以上の向上を達成した。
  • 膨大なラベルなしデータに対する自己教師付き事前学習のおかげで、新規に合成された分子への一般化性能が顕著に優れている。
  • メッセージパッシングと変換器アテンションの統合により、標準のGNNよりも表現力の高い分子表現が可能になった。
  • ノード、エッジ、グラフの多段階自己教師学習は、豊かな構造的・意味的特徴の学習に顕著な貢献をしている。
  • 1000万個のラベルなし分子での事前学習により、最小限の微調整で効果的なトランスファーラーニングが実現した。
  • 結果から、表現力のあるアーキテクチャと適切に設計された自己教師学習損失が、分子表現学習における性能向上の鍵であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。