QUICK REVIEW

[論文レビュー] Pre-training Molecular Graph Representation with 3D Geometry

Shengchao Liu, Hanchen Wang|arXiv (Cornell University)|Oct 7, 2021

Computational Drug Discovery Methods参考文献 85被引用数 150

ひとこと要約

GraphMVPは、コントラストと生成的自己教師ありタスクを通じて3D幾何を活用し、2D分子グラフエンコーダを事前訓練することで、下流の分子性質予測を改善する。

ABSTRACT

Molecular graph representation learning is a fundamental problem in modern drug and material discovery. Molecular graphs are typically modeled by their 2D topological structures, but it has been recently discovered that 3D geometric information plays a more vital role in predicting molecular functionalities. However, the lack of 3D information in real-world scenarios has significantly impeded the learning of geometric graph representation. To cope with this challenge, we propose the Graph Multi-View Pre-training (GraphMVP) framework where self-supervised learning (SSL) is performed by leveraging the correspondence and consistency between 2D topological structures and 3D geometric views. GraphMVP effectively learns a 2D molecular graph encoder that is enhanced by richer and more discriminative 3D geometry. We further provide theoretical insights to justify the effectiveness of GraphMVP. Finally, comprehensive experiments show that GraphMVP can consistently outperform existing graph SSL methods.

研究の動機と目的

3D幾何情報を2Dグラフエンコーディングに組み込むことにより、分子表現を改善する動機付け。
2Dおよび3Dビューに跨る対照学習と生成タスクを用いる自己教師あり事前学習フレームワーク（GraphMVP）を提案する。
3D幾何が事前学習中に2Dグラフ埋め込みを強化する特権情報として機能することを示す。
マスキング、コンフォマー数、目的関数が性能に及ぼす影響を分析する。
3D幾何を用いた多視点事前学習の利点に関する理論的洞察と実証的証拠を提供する。

提案手法

分子を2つのビューで表現する：2Dトポロジカルグラフと3D幾何コンフォーマーグラフ。
2つの自己教師付き前処理タスクを使用する：分子間で2Dと3Dビューを整合させる対照的目的（InfoNCE または EB-NCE）と、ビュー間の表現を再構成する生成目的（VRR）。
表現空間における横ビュー再構成品質を測定する変分表現再構成（VRR）代替損失を導入する。
2つのSSL目的を統一したGraphMVP目的に結合し、GraphMVP-GおよびGraphMVP-Cの変種が2D SSL補助タスクを組み込む。
共通データセット上で事前学習を行い（2D/3D構造とコンフォマーを含む50k分子）、下流の8つの低データタスクにGINをバックボーンとした2D GNNとSchNetによる3D幾何による事前学習信号を用いてファインチューニングする。

実験結果

リサーチクエスチョン

RQ13D幾何情報を事前学習に組み込むことで、下流タスクのための2D分子グラフ表現は改善されるか？
RQ2GraphMVPにおいて2Dと3Dビュー間の対照型SSLと生成型SSLの信号は互いにどのように補完し合うか？
RQ3マスキング比率とコンフォマー数が学習と性能に与える影響は何か？
RQ43D幾何は事前学習中に学習を加速する特権情報として機能するが、テスト時には利用できないのか？
RQ52D SSL目的を追加する拡張（GraphMVP-G、GraphMVP-C）はさらなる利得をもたらすか？

主な発見

Pre-training	BBBP	Tox21	ToxCast	Sider	ClinTox	MUV	HIV	Bace	Avg
GraphMVP	68.5(0.2)	74.5(0.4)	62.7(0.1)	62.3(1.6)	79.0(2.5)	75.0(1.4)	74.8(1.4)	76.8(1.1)	71.69
GraphMVP-G	70.8(0.5)	75.9(0.5)	63.1(0.2)	60.2(1.1)	79.1(2.8)	77.7(0.6)	76.0(0.1)	79.3(1.5)	72.76
GraphMVP-C	72.4(1.6)	74.4(0.2)	63.1(0.4)	63.9(1.2)	77.5(4.2)	75.0(1.0)	77.0(1.2)	81.2(0.9)	73.07

GraphMVPは8つの分子性質タスクでランダム初期化およびほとんどのSSLベースラインを上回り、顕著な平均改善を示す。
ハイブリッド変種 GraphMVP-G および GraphMVP-C は一貫して GraphMVP を上回り、3D幾何が2Dトポロジーを補完することを確認している。
VRRベースの生成的SSLは、確率的表現再構成を用いた場合、決定論的再構成よりも堅牢な利益をもたらす。
対照学習と生成的SSLを組み合わせると、タスク全体で最高の総合性能を得られる。
アブレーションによりマスキングとコンフォマー数が性能に影響を与え、中程度のコンフォマー数を超えると収益は逓減し、非ゼロのマスキングの利点があることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。