QUICK REVIEW

[論文レビュー] Learn molecular representations from large-scale unlabeled molecules for drug discovery

Pengyong Li, Jun Wang|arXiv (Cornell University)|Dec 21, 2020

Computational Drug Discovery Methods参考文献 60被引用数 24

ひとこと要約

本論文は、1100万個のラベルなし分子から表現力のある分子表現を学習するための自己教師付きグラフニューラルネットワーク（MolGNet）を用いた分子事前学習フレームワーク、MPGを提案する。ノードおよびグラフレベルの対照的学習を組み合わせ、グローバル表現のための仮想収集ノードを導入することで、わずか1つの追加層での微調整後、13のドラッグディスcoveryベンチマークで最先端の性能を達成する。

ABSTRACT

How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.

研究の動機と目的

AI駆動のドラッグディスcoveryにおけるラベル付きデータの不足を解決し、大規模なラベルなし分子を用いた事前学習を可能にする。
分子特性予測、ドラッグ-ドラッグ相互作用、ドラッグ-ターゲット相互作用の分野で、小規模なラベル付きデータセットによる教師ありGNNの一般化限界を克服する。
局所的な原子的特徴とグローバルな分子グラフ特徴を両方とも捉える統合的分子表現フレームワークを開発する。
最小限の微調整で、事前学習モデルから下流のドラッグディスcoveryタスクへの転移学習を可能にする。

提案手法

原子および結合の特徴を介したメッセージパッシングを用いた、分子表現学習を目的としたGNNアーキテクチャ、MolGNetを提案する。
2つの部分グラフが相同であるか否かを区別する、部分グラフ予測（PSD）に基づく新しい自己教師付き事前学習戦略を導入する。
分子を2つの部分グラフに分解し、1つの部分グラフを別の分子からの部分グラフにランダムに交換することで、ネガティブサンプリングを実施する。
すべてのノードに接続された仮想収集ノードを用いて、2つの非連結部分グラフからの情報を集約し、グローバルなグラフレベルの表現を生成する。
異なる分子からの部分グラフを区別できるように、学習済みの特徴埋め込みとセグメント埋め込みを組み合わせて入力表現を構築する。
ラベルなしデータを必要とせず、識別可能な表現を学習するため、PSDタスクにおける交差エントロピー損失を最適化することでモデルを最適化する。

実験結果

リサーチクエスチョン

RQ1大規模なラベルなし分子を用いた自己教師付き事前学習は、下流のドラッグディスCOVERYタスクにおける分子表現学習を改善できるか？
RQ2ラベルなしデータに依存せずに、GNNベースのモデルが解釈可能で一般化可能な分子表現を学習できるか？
RQ3提案された部分グラフ予測（PSD）戦略は、局所的およびグローバルな分子特徴をどれほど効果的に捉えられるか？
RQ41100万個の分子で事前学習することで、多様なドラッグディスCOVERYベンチマークでの性能はどの程度向上するか？

主な発見

事前学習済みのMolGNetモデルは、分子特性予測、ドラッグ-ドラッグ相互作用、ドラッグ-ターゲット相互作用のタスクにおいて13のベンチマークデータセットで最先端の性能を達成する。
1100万個のラベルなし分子で事前学習した後、MolGNetは表現力があり、解釈可能な化学的洞察を含む表現を学習する。
わずか1つの追加出力層での微調整により、限られたラベル付きデータでも教師ありベースラインを上回る優れた性能を達成する。
仮想収集ノードの使用により、部分グラフ情報の集約が可能となり、グローバルなグラフレベル表現学習が顕著に向上する。
PSD自己教師付きタスクは構造的相同性を効果的に捉え、多様な分子トポロジーにわたる強固な一般化を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。