QUICK REVIEW

[論文レビュー] A Deep Generative Model for Fragment-Based Molecule Generation

Marco Podda, Davide Bacciu|arXiv (Cornell University)|Feb 28, 2020

Machine Learning in Materials Science参考文献 29被引用数 35

ひとこと要約

本論文は、BRICSベースの切断と低頻度マスキングを用いた fragment-based 言語モデルを Molecule 生成に適用し、妥当性と多様性を向上させつつ、グラフベース手法と競合する結果を達成する。

ABSTRACT

Molecule generation is a challenging open problem in cheminformatics. Currently, deep generative approaches addressing the challenge belong to two broad categories, differing in how molecules are represented. One approach encodes molecular graphs as strings of text, and learns their corresponding character-based language model. Another, more expressive, approach operates directly on the molecular graph. In this work, we address two limitations of the former: generation of invalid and duplicate molecules. To improve validity rates, we develop a language model for small molecular substructures called fragments, loosely inspired by the well-known paradigm of Fragment-Based Drug Design. In other words, we generate molecules fragment by fragment, instead of atom by atom. To improve uniqueness rates, we present a frequency-based masking strategy that helps generate molecules with infrequent fragments. We show experimentally that our model largely outperforms other language model-based competitors, reaching state-of-the-art performances typical of graph-based approaches. Moreover, generated molecules display molecular properties similar to those in the training sample, even in absence of explicit task-specific supervision.

研究の動機と目的

SMILES ベースの生成器における高い不正確性と重複を、Fragment-Based Drug Design (FBDD) に触発したフラグメントレベルの生成を活用することで解消する。
化学的に妥当なフラグメントとフラグメント間の正当な結合を生成して分子妥当性を向上させる。
生成時に希少フラグメントを強化するマスキング戦略を用いて分子のユニーク性を高める。
単純な fragment-based 表現でありながら、グラフベースの生成器と対等、あるいはそれ以上の性能を示す。

提案手法

左から右への SMILES ガイド付き切断で dummy attachment point を用いて分子を BRICS フラグメントの順序列に分割する。
フラグメント語彙を構築し、ネガティブサンプリング付きのスキップグラムモデルで埋め込みを学習して文脈的類似性を捉える。
GRU ベースのエンコーダ・デコーダを用いた VAE に類似したアーキテクチャを採用し、潜在変数 z をサンプリングしてデコーダの初期化に用いる。
教師強制を用いてフラグメント列の対数尤度を最大化し、KL 発散項でガウス空間へ正則化する。
Low-Frequency Masking を導入して希少フラグメントを頻度ベースのトークンに置換し、生成時に稀なフラグメントのサンプリングを可能にする。
生成時には潜在 z をサンプルし、貪欲法でフラグメント列をデコードしてフラグメントから有効な分子を再構成する。 attachment point 制約を課す。

実験結果

リサーチクエスチョン

RQ1 fragment-based 生成は atom-by-atom SMILES ベースのモデルと比べて妥当性を改善できるか？
RQ2 Low-Frequency Masking (LFM) は生成される分子のユニーク性と多様性を改善するか？
RQ3 fragment-based LM ベース生成は妥当性、 novel性、ユニーク性の点でグラフベースの分子生成器とどう比較されるか？

主な発見

モデル	モデルファミリー	データセット	妥当性	新規性	ユニーク性
ChemVAE	LM	ZINC	0.170	0.980	0.310
GrammarVAE	LM	ZINC	0.310	1.000	0.108
SDVAE	LM	ZINC	0.435	-	-
GraphVAE	Graph	ZINC	0.140	1.000	0.316
CGVAE	Graph	ZINC	1.000	1.000	0.998
NeVAE	Graph	ZINC	1.000	0.999	1.000
Ours	LM	ZINC	1.000	0.992	0.460
Ours (LFM)	LM	ZINC	1.000	0.995	0.998
Ours	LM	PCBA	1.000	0.981	0.108
Ours (LFM)	LM	PCBA	1.000	0.991	0.972

fragment-based LM は ZINC および PCBA データセットで完全な妥当性を達成し、LM のベースラインを上回り、妥当性で最先端のグラフベース手法に一致する。
LM および LFM いずれの変種でもユニーク性が向上し、特に LFM 使用時に大きな利得が得られる。
LFM は PCBA で顕著な改善をもたらし、LM の性能を最先端のグラモデルに近づける。
グラフベースのモデルと比較して、LFM 変種は ZINC/PCBA タスクで競合的となり、しばしばユニーク性で上回る。
生成された分子は、タスク特異的な監視がなくてもトレーニングデータと同様の構造的特徴と薬物様性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。