Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Graph-to-Graph Translation for Molecules

Wengong Jin, Regina Barzilay|arXiv (Cornell University)|Jun 11, 2019
Computational Drug Discovery Methods参考文献 50被引用数 28
ひとこと要約

本稿では、分子最適化のための完全に自己回帰的で階層的なグラフからグラフへの翻訳モデル、HierG2Gを提案する。このモデルは、マルチリゾリューションフレームワーク内で部分構造とその結合を同時に予測する。部分構造生成と結合の解消を交互に実行し、マルチレベルエンコーダーを用いることで、先行する部分構造ベースの手法と比較してQEDおよびDRD2タスクでそれぞれ3.3%および8.1%の向上を達成するとともに、6.3倍高速に動作する。

ABSTRACT

The problem of accelerating drug discovery relies heavily on automatic tools to optimize precursor molecules to afford them with better biochemical properties. Our work in this paper substantially extends prior state-of-the-art on graph-to-graph translation methods for molecular optimization. In particular, we realize coherent multi-resolution representations by interweaving the encoding of substructure components with the atom-level encoding of the original molecular graph. Moreover, our graph decoder is fully autoregressive, and interleaves each step of adding a new substructure with the process of resolving its attachment to the emerging molecule. We evaluate our model on multiple molecular optimization tasks and show that our model significantly outperforms previous state-of-the-art baselines.

研究の動機と目的

  • 従来のグラフからグラフへの翻訳モデルが部分構造と結合の意思決定の間に自己回帰的依存性を欠いているという限界を是正すること。
  • 生成を階層的なステップに分解することでデコード効率を向上させ、結合列挙における組み合わせ的爆発を回避すること。
  • 翻訳中に望ましい化学的性質を入力基準として組み込むことで、条件付き分子生成を可能にすること。
  • 階層的デコードプロセスに整合する形で原子レベルと部分構造レベルの表現を捉えるマルチリゾリューション符号化方式を開発すること。
  • 希少な性質の組み合わせを持つ限定的なデータで学習した場合でも、条件付き翻訳の一般化能力を示すこと。

提案手法

  • モデルは3段階の階層的エンコーダーを用いる:原子レベルのグラフ畳み込み、部分構造レベルのメッセージパッシング、結合レベルのアテンション。これによりマルチリゾリューション表現学習が可能となる。
  • デコーダーは完全に自己回帰的であり、(どこに拡張するか、新しい部分構造タイプ、その結合点)という3つ組の予測の系列を通じて分子を生成する。
  • 各ステップで部分構造予測と結合予測を交互に実行し、将来の部分構造選択を過去の結合意思決定に条件づけることができる。
  • エンコーダーは3つのリゾリューションで分子を処理する:原子、部分構造(ジョイントツリーを介して)、結合点。クロスレベルアテンションにより一貫性を維持する。
  • 条件付き翻訳は、QED や DRD2 などの目的の性質ベクトルをデコーダーに条件づけることで実現され、標的最適化が可能になる。
  • アーキテクチャはエンコーダーとデコーダーの両方でLSTMベースのメッセージパッシングネットワーク(MPN)を用い、階層的アテンションにより各レベル間の情報を統合する。

実験結果

リサーチクエスチョン

  • RQ1部分構造と結合予測を交互に実行する完全な自己回帰的デコーダーは、段階的アプローチと比較して分子グラフ生成をどのように改善するか?
  • RQ2マルチリゾリューション符号化は、多様で化学的に妥当な分子の生成能力をどのように向上させるか?
  • RQ3限定的なデータで学習した場合、希少な性質の組み合わせに対して条件付き翻訳はどの程度一般化できるか?
  • RQ4原子レベルまたはジョイントツリーのみのデコードと比較して、階層的構造に基づくデコードは、正確性と効率の両面で優れているか?
  • RQ5階層的符号化や自己回帰的デコードといったアーキテクチャ的要素は、分子最適化タスクにおけるパフォーマンス向上にどの程度寄与しているか?

主な発見

  • HierG2GはQED最適化タスクで76.9%の成功率を達成し、以前のSOTAモデルであるJTNN(59.9%)を17ポイントも上回った。
  • DRD2最適化タスクでは85.9%の成功率を達成し、JTNNより10.9%、AtomG2Gベースラインより10.4%の向上を記録した。
  • 生成段階の効率的な階層的分解のおかげで、デコード段階でJTNN法の6.3倍高速に動作した。
  • 条件付き翻訳において、最も制約の厳しい基準(QEDおよびDRD2)では13.0%の成功率を達成し、両方の基準を満たすペアが全体の1.6%しか存在しないデータからも効果的に一般化した。
  • アブレーションスタディの結果、階層的符号化と構造ベースのデコードが不可欠であることが確認された。上位の部分構造レイヤーを削除するとDRD2タスクで2.4%の性能低下が生じた。一方、階層的デコードを原子レベルデコードに置き換えると、DRD2タスクで10.9%の性能低下が生じた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。