QUICK REVIEW

[論文レビュー] De Novo Molecular Generation via Connection-aware Motif Mining

Zijie Geng, Shufang Xie|arXiv (Cornell University)|Feb 2, 2023

Machine Learning in Materials Science被引用数 8

ひとこと要約

MiCaMは接続意識モチーフを分布学習とゴール指向生成のベンチマークで用い、デノボ分子生成を高度化する。

ABSTRACT

De novo molecular generation is an essential task for science discovery. Recently, fragment-based deep generative models have attracted much research attention due to their flexibility in generating novel molecules based on existing molecule fragments. However, the motif vocabulary, i.e., the collection of frequent fragments, is usually built upon heuristic rules, which brings difficulties to capturing common substructures from large amounts of molecules. In this work, we propose a new method, MiCaM, to generate molecules based on mined connection-aware motifs. Specifically, it leverages a data-driven algorithm to automatically discover motifs from a molecule library by iteratively merging subgraphs based on their frequency. The obtained motif vocabulary consists of not only molecular motifs (i.e., the frequent fragments), but also their connection information, indicating how the motifs are connected with each other. Based on the mined connection-aware motifs, MiCaM builds a connection-aware generator, which simultaneously picks up motifs and determines how they are connected. We test our method on distribution-learning benchmarks (i.e., generating novel molecules to resemble the distribution of a given training set) and goal-directed benchmarks (i.e., generating molecules with target properties), and achieve significant improvements over previous fragment-based baselines. Furthermore, we demonstrate that our method can effectively mine domain-specific motifs for different tasks.

研究の動機と目的

ヒューリスティックなモチーフ語彙を超えたfragmentベースのデノボ分子生成の改善を動機づける。
大規模分子ライブラリから頻繁で接続意識的なモチーフをデータ駆動でマイニングする方法を開発する。
モチーフを選択すると同時にそれらの結合方法を決定して有効な分子を構築するジェネレータを作成する。
標準ベンチマークで分布学習とゴール指向生成の性能が優れていることを実証する。
ドメイン特有のモチーフをタスク特化の生成に効果的にマイニングできることを示す。

提案手法

頻繁な隣接部分グラフを反復的に統合して接続意識モチーフを形成し、モチーフ語彙をマイニングする。
壊れた結合を * でマーキングし、モチーフグラフをGNNで表現して接続情報を保持する。
VAEフレームワークを用いて分子を潜在ベクトルに寫像し、生成を z とモチーフ表現で条件付ける。
生成時にはモチーフの結合部位または現在の分子部位を照会して次の結合または環化を決定する。
開始点と照会ネットワークに導かれて、新しいモチーフを付加するか部位を統合して環を形成することで生成する。
再構成損失、KL発散正則化、性質予測損失を用いて潜在空間を分子特性と整合させるよう訓練する。

実験結果

リサーチクエスチョン

RQ1データ駆動の統合戦略は、ヒューリスティック語彙よりも意味のある接続意識モチーフを発見し、生成品質を改善できるか。
RQ2接続意識モチーフ語彙とモチーフ認識ジェネレータは、標準ベンチマークで分布適合性（KL発散、FCD）および類似性/新規性を改善できるか。
RQ3モチーフ語彙とネットワークパラメータをドメイン特有のタスクへ共同適応して、最先端のゴール指向生成を達成できるか。
RQ4マージ操作回数の制御が訓練データへの類似性と新規性にどのように影響するか。
RQ5貪欲生成と分布的生成のモードは、KL発散/ FCDと新規性のトレードオフになるか。

主な発見

MiCaMは、比較対象ベースラインの中でQM9、ZINC、GuacaMolデータセット全体で最良のKL発散とFréchet ChemNet距離（FCD）を達成する。
MiCaMは分布的類似性を保ちながら、妥当性・一意性・新規性を高く維持する。
中程度の統合操作数（約500）が高い類似性を生み出す一方、操作を増やすとモチーフサイズと類似性は高まるが新規性が低下する可能性がある。
分布モードの生成は貪欲モードより新規性を高く示し、貪欲モードは類似性指標をわずかに向上させる。
ゴール指向ベンチマークではMiCaMが高いスコアを達成し、反復ターゲット強化と組み合わせると複数タスクで最先端の結果を得る。
ケーススタディは、ドメイン特有のモチーフが複雑な分子のターゲット特性改善を駆動することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。