Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Generation of Molecular Graphs using Structural Motifs

Wengong Jin, Regina Barzilay|arXiv (Cornell University)|Feb 8, 2020
Machine Learning in Materials Science参考文献 49被引用数 109
ひとこと要約

私たちは HierVAE を紹介します。モチーフベースの階層的グラフエンコーダ-デコーダで、巨大な構造モチーフを用いて大規模分子グラフを生成・再構成し、ポリマーとグラフ翻訳タスクで従来の原子ベースおよびサブ構造ベースの手法を上回ります。

ABSTRACT

Graph generation techniques are increasingly being adopted for drug discovery. Previous graph generation approaches have utilized relatively small molecular building blocks such as atoms or simple cycles, limiting their effectiveness to smaller molecules. Indeed, as we demonstrate, their performance degrades significantly for larger molecules. In this paper, we propose a new hierarchical graph encoder-decoder that employs significantly larger and more flexible graph motifs as basic building blocks. Our encoder produces a multi-resolution representation for each molecule in a fine-to-coarse fashion, from atoms to connected motifs. Each level integrates the encoding of constituents below with the graph at that level. Our autoregressive coarse-to-fine decoder adds one motif at a time, interleaving the decision of selecting a new motif with the process of resolving its attachments to the emerging molecule. We evaluate our model on multiple molecule generation tasks, including polymers, and show that our model significantly outperforms previous state-of-the-art baselines.

研究の動機と目的

  • ポリマーのような大型分子の生成を改善するために、巨大な構造モチーフの利用を動機づける。
  • 原子からモチーフまで、複数解像度での基盤を持つ階層エンコーダを開発する。
  • モチーフベースの自己回帰デコーダを提案し、モチーフごとに結合決定を行い分子を構築する。
  • 既存のベースラインと比較して、優れた再構成、翻訳性能、デコード速度を示す。

提案手法

  • トレーニング分子からモチーフ語彙を抽出する。ブリッジ結合でグラフを分解し、頻繁に出現する部分グラフをモチーフとして選択する。
  • 三層の階層的グラフ表現(モチーフ、アタッチメント、原子)を構築し、三つの階層的MPNでエンコードして各分子の潜在ベクトル z を得る。
  • 次のモチーフ、接続構成、既存グラフへの結合方法を予測する、コースからファイへと進む自己回帰デコーダを用いる(z から得られる情報を参照)。
  • 分子分布に対する変分下界(ELBO)を最大化するよう、ティーチャーフォーシングで訓練する。
  • 潜在変数を組み込んで、注意機構を用い多様で性質最適化された出力を生み出すグラフ間翻訳へ拡張する。
  • 翻訳時には、マルチ解像度表現に対する階層的注意を備えたエンコーダ-デコーダを用いてモチーフレベルの予測を導く。

実験結果

リサーチクエスチョン

  • RQ1原子ベースや小さなサブ構造ベースの方法と比較して、より大きく柔軟なモチーフを建築ブロックとして用いることは、大型分子の生成と再構成を改善しますか?
  • RQ2階層的モチーフベースのエンコーディングは、スケーラブルなポリマー生成とグラフ翻訳のデコード過程をどのように分離・指示しますか?
  • RQ3モチーフベースのデコーダは、ポリマーと翻訳タスクでより速いデコーディングと実分子に近い分布類似性を実現しますか?
  • RQ4大型モチーフの使用が、再構成精度と性質最適化指標に与える影響は、制限された小さなモチーフとどう異なりますか?

主な発見

  • HierVAE は、ベースライン(例:JT-VAE 58.5%)よりも着実に高い再構成精度(79.9%)を達成します。
  • ポリマー生成で、HierVAE は最先端の分布統計を達成し、logP および分子量指標で改善を示します。
  • HierVAE は従来のサブ構造ベース法よりデコードが速く、生成ステップを削減し、基準と比較してデコード速度を約6.3倍向上させます。
  • グラフ間翻訳では、HierG2G が JTNN や AtomG2G ベースラインより QED および DRD2 の改善度が高く、デコードも速いです。
  • アブレーションは、大型モチーフが小型モチーフを上回ることを示し、大型分子の性能向上にはモチーフスケールのブロックが有効であるという中心主張を裏付けます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。