Skip to main content
QUICK REVIEW

[論文レビュー] Constrained Graph Variational Autoencoders for Molecule Design

Qi Liu, Miltiadis Allamanis|arXiv (Cornell University)|May 23, 2018
Computational Drug Discovery Methods参考文献 31被引用数 234
ひとこと要約

CGVAEは、グラフ構造のVAEを提案し、逐次的なグラフ生成プロセスと厳密なドメイン特化マスクを用いて有効な分子を生成し、潜在空間での分子特性の最適化を可能にする。

ABSTRACT

Graphs are ubiquitous data structures for representing interactions between entities. With an emphasis on the use of graphs to represent chemical molecules, we explore the task of learning to generate graphs that conform to a distribution observed in training data. We propose a variational autoencoder model in which both encoder and decoder are graph-structured. Our decoder assumes a sequential ordering of graph extension steps and we discuss and analyze design choices that mitigate the potential downsides of this linearization. Experiments compare our approach with a wide range of baselines on the molecule generation task and show that our method is more successful at matching the statistics of the original dataset on semantically important metrics. Furthermore, we show that by using appropriate shaping of the latent space, our model allows us to design molecules that are (locally) optimal in desired properties.

研究の動機と目的

  • トレーニングデータ分布に従い、化学的有効性制約を満たすグラフを学習で生成する動機づけ。
  • エンコーダとデコーダの両方がグラフ構造データ上で動作する変分オートエンコーダを開発する。
  • スキーマに厳密なドメイン特有の制約を組み込み、分子グラフの構文的有効性を保証する。
  • 潜在空間を形作り活用して数値的な分子特性の最適化を可能にする。

提案手法

  • VAEのエンコーダとデコーダの両方にゲート付きグラフニューラルネットワーク(GGNN)を使用する。
  • 現在の部分グラフの状態だけを条件にして、グラフを構築するための焦点と拡張の決定に焦点を当て、逐次的なグラフ拡張プロセスを採用する。
  • 化学的有効性を確保し違法なグラフを防ぐために、硬い価数ベースのマスキングを適用する。
  • モンテカルロ推定を介して生成軌跡上の対数尤度を近似する再構成目的で訓練する。
  • 潜在空間の特性を微分可能な回帰モデルとz空間での勾配上昇を用いて最適化する仕組みを提供する。

実験結果

リサーチクエスチョン

  • RQ1逐次的グラフ生成を伴うグラフ構造VAEは、訓練分布と化学的に関連する統計に一致する分子を生成できるか。
  • RQ2マスキングとGGNNベースのデコーディングは、データセット全体で生成分子の有効性・新規性・一意性を改善するか。
  • RQ3学習された潜在空間を利用してQEDのような数値的分子特性を最適化できるか。
  • RQ4グラフ生成を制約することは、非制約グラフジェネレータと比較してスケーラビリティと訓練の安定性にどのように影響するか。

主な発見

  • CGVAEはQM9、ZINC、CEPDBデータセット全体で高い有効性・新規性・一意性を達成する。
  • モデルは原子・結合数、環の数といった訓練グラフ統計と一致し、分布の faithful な捕捉を示す。
  • 距離特徴、独立性仮定、GGNNの除外が結果を劣化させるため、マスキングとGGNNを用いた逐次デコーディングが性能の鍵となる。
  • 潜在空間はQEDのような性質の勾配ベースの最適化を可能にし、予測QEDとRDKit測定QEDの両方で高い値を生成する分子を生み出す。
  • ベースラインと比較して、CGVAEは無効な分子生成を減らし、連続的な最適化を可能にしつつ、浅く安定した訓練プロセスを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。