QUICK REVIEW

[論文レビュー] Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

Jiaxuan You, Bowen Liu|arXiv (Cornell University)|Jun 6, 2018

Machine Learning in Materials Science参考文献 34被引用数 445

ひとこと要約

GCPN は、強化学習と対立的損失で訓練されたグラフ畳み込みポリシーネットワークを導入し、化学規則を守りつつ目的の性質を最適化する分子グラフを生成します。

ABSTRACT

Generating novel graph structures that optimize given objectives while obeying some given underlying rules is fundamental for chemistry, biology and social science research. This is especially important in the task of molecular graph generation, whose goal is to discover novel molecules with desired properties such as drug-likeness and synthetic accessibility, while obeying physical laws such as chemical valency. However, designing models to find molecules that optimize desired properties while incorporating highly complex and non-differentiable rules remains to be a challenging task. Here we propose Graph Convolutional Policy Network (GCPN), a general graph convolutional network based model for goal-directed graph generation through reinforcement learning. The model is trained to optimize domain-specific rewards and adversarial loss through policy gradient, and acts in an environment that incorporates domain-specific rules. Experimental results show that GCPN can achieve 61% improvement on chemical property optimization over state-of-the-art baselines while resembling known molecules, and achieve 184% improvement on the constrained property optimization task.

研究の動機と目的

望ましい性質を持つ分子を設計するために、大規模で離散的な化学空間を探索する必要性を動機づける。
環境ダイナミクスを通じて厳密な化学制約を組み込むことができる、グラフベースの生成フレームワークを提案する。
強化学習と対立的訓練を活用し、現実的でありつつドメイン特有の性質を直接最適化する。

提案手法

分子をグラフとして表現し、ノードや結合を追加するアクションを通じて反復的に生成する。
分子生成を化学を考慮した環境を持つマルコフ決定過程として定式化する。
拡張グラフ上でノード埋め込みを計算しアクションを予測するために、グラフ畳み込みネットワークを使用する。
ドメイン特有の性質と識別器からの対立損失を組み合わせた報酬を最適化するためにPPOポリシー勾配を適用する。
学習をブーストし安定性を高めるために専門家事前学習を組み込む。

実験結果

リサーチクエスチョン

RQ1グラフベースのRLエージェントは、化学的妥当性制約の下でドメイン特有の性質を最適化する分子を生成することを学べるか。
RQ2性質を最適化しつつ、分子識別器による対立訓練は生成分子の現実性と妥当性を改善するか。
RQ3性質最適化・ターゲティング・制約付き最適化タスクにおいて、グラフベース手法は最先端のベースラインとどのように比較されるか。

主な発見

GCPN は、ペナルティ付き logP の化学的性質最適化で最良ベースラインより平均で61%の改善、制約付き性質最適化で184%の改善を達成。
GCPN はほぼ完璧な妥当性（100.0%）を示し、タスク全体で現実的な分子への強い類似性を示す。
性質ターゲティングでは、GCPN は成功率と多様性の点でベースラインを大きく上回る。
ZINCデータセットの複数目的指標で、GCPN は JT-VAE および ORGAN を報告された指標で上回る。
グラフベースの表現は段階的な原子価チェックを可能にし、報告結果で100%の妥当性を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。