QUICK REVIEW

[論文レビュー] MolecularRNN: Generating realistic molecular graphs with optimized properties

Mariya Popova, Mykhailo Shvets|arXiv (Cornell University)|May 30, 2019

Computational Drug Discovery Methods被引用数 67

ひとこと要約

MolecularRNNはグラフ再帰モデルで、現実的な分子グラフを生成し、価数に基づくリジェクションサンプリングで100%の有効性を達成し、ポリシー勾配強化学習により性質を最適化します。

ABSTRACT

Designing new molecules with a set of predefined properties is a core problem in modern drug discovery and development. There is a growing need for de-novo design methods that would address this problem. We present MolecularRNN, the graph recurrent generative model for molecular structures. Our model generates diverse realistic molecular graphs after likelihood pretraining on a big database of molecules. We perform an analysis of our pretrained models on large-scale generated datasets of 1 million samples. Further, the model is tuned with policy gradient algorithm, provided a critic that estimates the reward for the property of interest. We show a significant distribution shift to the desired range for lipophilicity, drug-likeness, and melting point outperforming state-of-the-art works. With the use of rejection sampling based on valency constraints, our model yields 100% validity. Moreover, we show that invalid molecules provide a rich signal to the model through the use of structure penalty in our reinforcement learning pipeline.

研究の動機と目的

原子をノードとして、結合をエッジとして直接モデル化する分子構造のグラフ生成器を開発する。
推論と訓練中の価数に基づく制約を通じて化学的有効性を保証する。
報酬を評価するクリティックを用いた強化学習により、分子の性質（例：logP、QED、融点）の最適化を可能にする。
大規模生成によるスケーラビリティを実証し、最先端手法と比較する。
多様なデータセットを横断した詳細な実証分析を提供し、生成品質と性質変化をベンチマークする。

提案手法

GraphRNNを拡張して、原子種と結合次数（S_i^π ∈ {0,1,2,3} および C_i^π）を持つ分子グラフを扱えるようにする。
BFSノード順序付けを用いて複雑さを削減し、NodeRNNとEdgeRNNコンポーネントでグラフを生成する。
エッジサンプリング時に化学的価数を強制するため、価数ベースのリジェクションサンプリングを適用する（いずれの原子も価数を超えないようにする）。
大規模な分子データセット（ChEMBL、ZINC、MOSES）で教師なし尤度を事前訓練して、現実的な分布を学習する。
任意で、訓練中に構造ペナルティを適用して価数制約を強化し、有効性を改善する。
クリティックを用いて性質ベースの報酬を推定する方策勾配強化学習で生成分子を最適化する（例：ペナルティ付きlogP、QED、融点）。

実験結果

リサーチクエスチョン

RQ1分子グラフをノード/エッジタイプ予測で直接生成して、有効性が高く多様で新規な分子を生み出せるか。
RQ2価数ベースのリジェクションサンプリングは、多様性や品質を損なうことなく推論時に100%の有効性を保証できるか。
RQ3方策勾配ベースの最適化は、生成分子の分布を望ましい性質（logP、QED、融点）へとシフトさせるか。
RQ4訓練時に構造ペナルティを使用することは、有効性と化学的リアリズムにどのような影響を及ぼすか。
RQ5MolecularRNNは大規模ベンチマークで、グラフベースおよびSMILESベースの最先端 Generator とどう比較されるか。

主な発見

推論時に価数ベースのリジェクションサンプリングで100%の有効性を達成。
大規模データセットでの教師なし尤度事前訓練は、100万サンプルにおいて高い有効性、唯一性、 Novel性、および内部多様性をもたらす。
MolecularRNNは30kサンプルでGCPNとJT-VAEと比較して有効性/唯一性/新規性に競争力を持つ。
方策勾配最適化はペナルティ付きlogPとQEDのターゲット範囲へ性質分布をシフトし、ベースラインを上回る。
融点最適化は、グラフから直接導出できない性質を、クリティックとして学習した予測子を介してモデルが最適化できることを示す。
構造ペナルティは訓練時に信号を提供し、有効性と化学リアリズムを向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。