QUICK REVIEW

[論文レビュー] GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation

Chence Shi, Minkai Xu|arXiv (Cornell University)|Jan 26, 2020

Computational Drug Discovery Methods参考文献 45被引用数 205

ひとこと要約

GraphAFは分子グラフ生成のための流れベースの自己回帰モデルで、高い妥当性と効率を実現し、密度モデリングを迅速に行い、強化学習後の特性最適化を優越させる。

ABSTRACT

Molecular graph generation is a fundamental problem for drug discovery and has been attracting growing attention. The problem is challenging since it requires not only generating chemically valid molecular structures but also optimizing their chemical properties in the meantime. Inspired by the recent progress in deep generative models, in this paper we propose a flow-based autoregressive model for graph generation called GraphAF. GraphAF combines the advantages of both autoregressive and flow-based approaches and enjoys: (1) high model flexibility for data density estimation; (2) efficient parallel computation for training; (3) an iterative sampling process, which allows leveraging chemical domain knowledge for valency checking. Experimental results show that GraphAF is able to generate 68% chemically valid molecules even without chemical knowledge rules and 100% valid molecules with chemical rules. The training process of GraphAF is two times faster than the existing state-of-the-art approach GCPN. After fine-tuning the model for goal-directed property optimization with reinforcement learning, GraphAF achieves state-of-the-art performance on both chemical property optimization and constrained property optimization.

研究の動機と目的

薬物発見と材料科学における化学的妥当性と特性最適化制約の下で分子グラフ生成を動機づける。
分子データ密度をモデル化でき、効率的なトレーニングとサンプリングを可能にする流れベース自己回帰フレームワークを開発する。
生成時の配位制約を通じて化学的ドメインチ knowledgeを組み込み、強化学習による目標指向の最適化を可能にする。
GraphAFを標準的な分子データセットで評価し、正確性、独自性、新規性、再構成を最先端の手法と比較する。

提案手法

分子グラフ生成をノードとエッジを自己回帰的に生成する逐次決定プロセスとして定式化する。
dequantizationとガウス条件付きを用いて基底ガウスから離散グラフ構造へ invertible flowを定義する。
Relational GCN (R-GCN)を用いてノード条件付きとエッジ条件付きの平均とスケールパラメータ（g_mu, g_alpha）をニューラルネットワークで生成する。
マスクと BFS ベースのグラフ順序付けにより効率的な並列トレーニングを実現し、単一の前向きパスで正確な尤度を計算可能にする。
サンプリング時に配位チェックを組み込み、水素を追加して価電子を満たすことで化学的妥当性を保証する。
（任意）強化学習による微調整（PPO）でペナルティ付き logP と QED を類似度制約とともに最適化し、制約付き特性最適化を促進する。

実験結果

リサーチクエスチョン

RQ1GraphAFは分子グラフのデータ密度を正確にモデリングでき、並列トレーニングを効率的に実現できるか。
RQ2自己回帰フローアプローチは既存のグラフ生成モデルより高い妥当性と再構成精度を達成するか。
RQ3GraphAFは密度モデリング、生成、特性/制約付き特性最適化の観点で、ベースラインと比較してどのように性能を示すか。
RQ4配位ベースの制約と強化学習が生成分子の品質と妥当性に与える影響はどの程度か。

主な発見

Method	Validity	Validity w/o check	Uniqueness	Novelty	Reconstruction
JT-VAE	100%	—	100% ‡	100% ‡	76.7%
GCPN	100%	20% †	99.97% ‡	100% ‡	—
MRNN	100%	65%	99.89%	100%	—
GraphAF	100%	68%	99.10%	100%	100%

生成時に配位ルールを適用するとGraphAFは100%の妥当性を達成する。
配位チェックなしでもGraphAFは68%の妥当性を達成し、従来の自己回帰法より高い。
同一ハードウェアでのトレーニングはGCPNより著しく速く、約4時間程度。
GraphAFはZINC250k、QM9、MOSESデータセット全体で密度モデリングと生成の最先端に匹敵またはそれを凌駕する。
強化学習による微調整はペナルティ付きlogPで最先端の結果をもたらし、QEDスコアも同等で、制約付き特性最適化で高い性能を示す。
一般グラフではGraphAFはGraphRNNおよびGNFに対してMMD指標で競争力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。