Skip to main content
QUICK REVIEW

[論文レビュー] Chemical-Reaction-Aware Molecule Representation Learning

Hongwei Wang, Weijiang Li|arXiv (Cornell University)|Sep 21, 2021
Computational Drug Discovery Methods参考文献 45被引用数 33
ひとこと要約

MolR は GNN エンコーダを用いて埋め込み空間で化学反応の等価性を強制し、分子表現を学習し、反応予測、分子性質予測、 GED タスクで最先端成果を達成します。

ABSTRACT

Molecule representation learning (MRL) methods aim to embed molecules into a real vector space. However, existing SMILES-based (Simplified Molecular-Input Line-Entry System) or GNN-based (Graph Neural Networks) MRL methods either take SMILES strings as input that have difficulty in encoding molecule structure information, or over-emphasize the importance of GNN architectures but neglect their generalization ability. Here we propose using chemical reactions to assist learning molecule representation. The key idea of our approach is to preserve the equivalence of molecules with respect to chemical reactions in the embedding space, i.e., forcing the sum of reactant embeddings and the sum of product embeddings to be equal for each chemical equation. This constraint is proven effective to 1) keep the embedding space well-organized and 2) improve the generalization ability of molecule embeddings. Moreover, our model can use any GNN as the molecule encoder and is thus agnostic to GNN architectures. Experimental results demonstrate that our method achieves state-of-the-art performance in a variety of downstream tasks, e.g., 17.4% absolute Hit@1 gain in chemical reaction prediction, 2.3% absolute AUC gain in molecule property prediction, and 18.5% relative RMSE gain in graph-edit-distance prediction, respectively, over the best baseline method. The code is available at https://github.com/hwwang55/MolR.

研究の動機と目的

  • 化学反応の構造を活用してタスク全般で一般化する堅牢な分子表現を動機づける。
  • 埋め込み空間を整理し反応テンプレートが出現するように反応等価性制約を提案する。
  • 方法が特定の GNN エンコーダに依存せず複数の下流タスクを改善することを示す。
  • 化学反応予測、分子性質予測、グラフ編集距離予測で強力な実証的向上を示す。
  • 埋め込みを可視化して反応意識と構造エンコーディングを示す。

提案手法

  • 原子と結合の特徴を持つグラフとして分子を表現し、GNN ベースの分子エンコーダでこれを符号化する。
  • 反応等価性制約を課す:各反応について反応物の埋め込みの総和が生成物の埋め込みの総和に等しくなる。
  • 正しい反応物-生成物の総和を一緒に引き寄せ、誤った組み合わせを離すミニバッチ対比目的関数(マージンベースの損失)で訓練する。
  • 総和読み出しを用いると制約が unseen 反応へ一般化する反応テンプレートを誘導することを示す(命題2)。
  • 様々な GNN バックボーン(GCN、GAT、SAGE、TAG)でエンドツーエンド訓練を行い、反応予測、性質予測、GEDタスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1化学反応を用いて分子埋め込みを正則化し、タスク全体の一般化を改善できるか?
  • RQ2反応制約はGNNベース表現内で組成的な埋め込みと学習可能な反応テンプレートを誘導するか?
  • RQ3MolR は反応予測、分子性質予測、グラフ編集距離予測でベースラインと比較してどうか?
  • RQ4MolR はGNNアーキテクチャの選択に依存せず性能向上を維持できるか?

主な発見

  • MolR は最高ベースラインより化学反応予測で絶対 Hit@1 が 17.4% 増加。
  • MolR は分子性質予測の BBBP データセットで絶対 AUC が 2.3% 増加。
  • MolR はグラフ編集距離予測で最高ベースラインより相対 RMSE が 18.5% 向上。
  • 異なる GNN(GCN, GAT, SAGE, TAG)を用いた MolR バリアントはすべてベースラインを上回り、MolR-TAG がしばしば最も強力。
  • 訓練データがわずか 1% の場合でも MolR-TAG は高い性能を維持し、 Few-shot generalization の主張を支持。
  • 埋め込みの可視化は反応意識の組織化、分子サイズや環数との相関、学習された反応テンプレートを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。