QUICK REVIEW

[論文レビュー] MolGAN: An implicit generative model for small molecular graphs

Nicola De Cao, Thomas Kipf|arXiv (Cornell University)|May 30, 2018

Machine Learning in Materials Science参考文献 39被引用数 477

ひとこと要約

MolGAN は、直接小さな分子グラフを生成する暗黙的、尤度フリーの GAN ベースのモデルを導入し、RL 目的を用いて化学特性を最適化し、QM9 で高い有効性と新規性を達成します。グラフ表現上で、置換不変の識別器と報酬ネットワークを用います。

ABSTRACT

Deep generative models for graph-structured data offer a new angle on the problem of chemical synthesis: by optimizing differentiable models that directly generate molecular graphs, it is possible to side-step expensive search procedures in the discrete and vast space of chemical structures. We introduce MolGAN, an implicit, likelihood-free generative model for small molecular graphs that circumvents the need for expensive graph matching procedures or node ordering heuristics of previous likelihood-based methods. Our method adapts generative adversarial networks (GANs) to operate directly on graph-structured data. We combine our approach with a reinforcement learning objective to encourage the generation of molecules with specific desired chemical properties. In experiments on the QM9 chemical database, we demonstrate that our model is capable of generating close to 100% valid compounds. MolGAN compares favorably both to recent proposals that use string-based (SMILES) representations of molecules and to a likelihood-based method that directly generates graphs, albeit being susceptible to mode collapse. Code at https://github.com/nicola-decao/MolGAN

研究の動機と目的

直接 SMILES 文字列ではなく分子グラフを生成することによる新規ドラッグ設計の動機付け。
グラフマッチングやノード順序ヒューリスティックを避けるための暗黙的、尤度フリーの小さなグラフ生成器の開発。
GAN と強化学習を組み合わせて生成を望ましい化学特性へ導く。
Relational-GCN ベースの識別器と報酬ネットワークを介して置換不変なグラフ処理を可能にする。

提案手法

分子をノードタイプ（原子）とエッジタイプ（結合タイプ）を持つ無向グラフとして表現する。
ジェネレータ G がノードとエッジの分布を表す濃密な X と A を出力し、カテゴリサンプリングを用いて離散グラフをサンプルする。
Relational-GCN を用いたグラフ入力で、置換不変な識別器 D と報酬ネットワーク R̂ を訓練する。
L(θ)=λ·L_WGAN(θ)+(1−λ)·L_RL(θ) を最適化して、現実性と特性最適化のバランスを取る。
微分可能な報酬予測子を用いた deterministic policy gradient (DDPG に触発) を適用して、望ましい特性へグラフ生成を誘導する。
連続、Gumbel ノイズ、Straight-Through Gumbel-Softmax の三つの離散化変種を検討して、勾配ベースの訓練を非微分可能なサンプリングにも適用可能にする。

実験結果

リサーチクエスチョン

RQ1MolGAN は SMILES 表現に依存せず直接有効な分子グラフを生成できるか。
RQ2GAN ベースの生成と RL ベースの特性最適化を組み合わせると、既存のグラフベースや SMILES ベース手法と比べて有効性、新規性、溶解性が改善されるか。
RQ3トレードオフパラメータ λ は有効性、独自性、新規性、特性スコアにどう影響するか。
RQ4Deterministic Policy Gradient アプローチ (DDPG) は高次元グラフ生成タスクに有効か。
RQ5グラフベースの識別器と報酬ネットワークは QM9 での生成品質にどう影響するか。

主な発見

MolGAN は QM9 のサブセットでほぼ100% の有効性を達成し、有効性と特性スコアにおいて、いくつかの SMILES ベースおよび尤度ベースのグラフ生成器を大きく上回る。
より小さな λ 値（GAN 目的を優先するとき）は高い有効性をもたらす。RL が無効な出力を強くペナルティすることを示唆。
MolGAN は QM9 において ORGAN およびいくつかの VAE ベースのベースラインよりも高い有効性と溶解性/薬物様性/合成可能性スコアを示す。
QM9 で MolGAN を訓練すると有効性が高く、従来の SMILES ベース手法よりも訓練時間が速い競争力のある目的スコアを得る。
すべての実験はモード崩壊の傾向を示しており、独自性スコアが低いことがあり、早期停止と報酬ネットワークの事前訓練を必要とする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。