Skip to main content
QUICK REVIEW

[論文レビュー] Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition

Bo Pan, Peter Zhiping Zhang|arXiv (Cornell University)|Feb 18, 2026
Computational Drug Discovery Methods被引用数 0
ひとこと要約

本論文は、変数間マッチング分子対変換の基盤モデル MMPT-FM と、生成の制御性・新規性・リコール性を高める参照補助生成アプローチ MMPT-RAG を提案する。

ABSTRACT

Matched molecular pairs (MMPs) capture the local chemical edits that medicinal chemists routinely use to design analogs, but existing ML approaches either operate at the whole-molecule level with limited edit controllability or learn MMP-style edits from restricted settings and small models. We propose a variable-to-variable formulation of analog generation and train a foundation model on large-scale MMP transformations (MMPTs) to generate diverse variables conditioned on an input variable. To enable practical control, we develop prompting mechanisms that let the users specify preferred transformation patterns during generation. We further introduce MMPT-RAG, a retrieval-augmented framework that uses external reference analogs as contextual guidance to steer generation and generalize from project-specific series. Experiments on general chemical corpora and patent-specific datasets demonstrate improved diversity, novelty, and controllability, and show that our method recovers realistic analog structures in practical discovery scenarios.

研究の動機と目的

  • MMPT を用いて文脈依存性のない局所編集としてアナログ設計を formalize する(vA -> vB)。
  • 薬物様化学データから変換 priors を学習する大規模な MMPT 基盤モデルを訓練する。
  • 構造的テンプレート prompting によるユーザー制御生成を可能にする。
  • MMPT-RAG を導入し、参照類似体からの参照を取り込み、クラスタ Guided テンプレートで生成を誘導する。
  • 在分布・特許ベースのアナログ生成タスクでリコール・新規性・妥当性の向上を示す。

提案手法

  • MMPT を SMARTS ベースの変数間シーケンスとして表現し、ChEMBL 由来の約0.8M の MMPT を MMPDB 経由で抽出してシーケンス-ツ-シーケンスのエンコーダ-デコーダを訓練する。
  • 化学的意味を維持するため、化学に特化した事前学習モデル(T5Chem)から初期化する。
  • 部分的な構造制約 T をユーザーが提供することで、マスクされた埋め込みによる prompting 生成を実装する。
  • MMPT-RAG を開発:参照 MMPT データセットから類似の vA を検索し、対応する vB をクラスタ化し、MCS ベースのテンプレ Tk を抽出し、複数のクラスタ テンプレートを条件として生成を行う。
  • ベースモデルと参照分布の間で凹凸分布シフトを生み出す理論分析を提示し、適応的な α パラメータで統御する。
  • 3 つの評価タスク(在分布、特許内、特許横断)を提供し、多様な設定でリコール・新規性・妥当性を評価する。
Figure 1 . An example of (a) Matched Molecular Pairs (MMP); (b) Matched Molecular Pair Transformation (MMPT) and its textual representation.
Figure 1 . An example of (a) Matched Molecular Pairs (MMP); (b) Matched Molecular Pair Transformation (MMPT) and its textual representation.

実験結果

リサーチクエスチョン

  • RQ1MMPT は薬物化学における転用可能で文脈依存性のない局所編集を捉えられるか。
  • RQ2大規模データから MMPT priors を学習し、妥当で新規かつ転用可能な置換を生成できる基盤モデルはどの程度か。
  • RQ3プロンプト提示により再訓練なしで構造指向の MMPT 生成を制御できるか。
  • RQ4参照補助が MMPT 生成をプロジェクト固有のパターンやまれで意味のある変換へ導けるか。
  • RQ5MMPT-RAG は在分布・特許内・特許横断のアナログ生成タスクでベースラインと比較してどうなるか。

主な発見

  • MMPT-FM は全タスクで基準モデルより Ground-truth 変換のリコールを著しく高める。
  • MMPT-RAG はリコールをさらに改善し、タスク1(ChEMBL)で最高の新規性を達成。
  • 特許ベースのタスクでは、MMPT-FM と MMPT-RAG は訓練データ内のリコールが高く、訓練データ外のリコールも意味のあることから unseen 変換への一般化を示唆。
  • 参照補助は生成を希少だが化学的に意味のある変換へと誘導し、化学空間のカバー率を改善。
  • 構造テンプレートを用いた prompting 生成は、候補数が増えると GT 回収率がほぼ完璧になり妥当性を維持。
  • 可視化は MMPT-RAG が PMV17 で基盤モデルを超える化学空間カバーを拡張し、生成を参照分布へ整合させることを示唆。
Figure 2 . Overview of the proposed MMPT framework. (a) The foundation model (MMPT-FM) is trained on large-scale MMPT data. (b) MMPT-FM supports controllable generation via masked template prompting. (c) MMPT-RAG augments generation with retrieval, clustering, and MCS-based template extraction to gu
Figure 2 . Overview of the proposed MMPT framework. (a) The foundation model (MMPT-FM) is trained on large-scale MMPT data. (b) MMPT-FM supports controllable generation via masked template prompting. (c) MMPT-RAG augments generation with retrieval, clustering, and MCS-based template extraction to gu

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。