Skip to main content
QUICK REVIEW

[論文レビュー] Minimal-Action Discrete Schrödinger Bridge Matching for Peptide Sequence Design

Shrey Goel, Pranam Chatterjee|arXiv (Cornell University)|Jan 29, 2026
DNA and Biological Computing被引用数 0
ひとこと要約

MadSBMは、参照と学習可能な制御を用いて、ノイズの多い事前分布とデータ分布の間の最小アクション輸送としてペプチド設計を再定義する。

ABSTRACT

Generative modeling of peptide sequences requires navigating a discrete and highly constrained space in which many intermediate states are chemically implausible or unstable. Existing discrete diffusion and flow-based methods rely on reversing fixed corruption processes or following prescribed probability paths, which can force generation through low-likelihood regions and require countless sampling steps. We introduce Minimal-action discrete Schrödinger Bridge Matching (MadSBM), a rate-based generative framework for peptide design that formulates generation as a controlled continuous-time Markov process on the amino-acid edit graph. To yield probability trajectories that remain near high-likelihood sequence neighborhoods throughout generation, MadSBM 1) defines generation relative to a biologically informed reference process derived from pre-trained protein language model logits and 2) learns a time-dependent control field that biases transition rates to produce low-action transport paths from a masked prior to the data distribution. We finally introduce guidance to the MadSBM sampling procedure towards a specific functional objective, expanding the design space of therapeutic peptides; to our knowledge, this represents the first-ever application of discrete classifier guidance to Schrödinger bridge-based generative models.

研究の動機と目的

  • ノイズの多い事前分布とアミノ酸エディットグラフ上のデータ分布との間の最小アクション輸送として、ペプチド配列生成を再定義する。
  • 事前学習済みタンパク質言語モデルのロジットから導出された生物学的に情報を得た参照プロセスを活用して生成を導く。
  • 時刻依存の制御場を学習し、遷移率を高確率なペプチド近傍へ tilt する。
  • 機能設計目標を組み込むための目的指向サンプリングを実現する。
  • 離散拡散のベースラインと比較して、サンプル効率と安定性を示しつつ、誘導設計を可能にする。

提案手法

  • アミノ酸エディットグラフ上の参照ジェネレーター R0 を用いた、連続時間マルコフ連鎖(CTMC)としての生成モデリング。
  • R_u(x,x') = R0(x,x') exp(u_theta(x,x',t)) を定義し、ひねりを付けた時刻依存の制御過程を作成。
  • A(u) = E_{P_u}[ ∫ R0(X_t,x') Ψ(u(X_t,x',t)) dt ] を導出し、Ψ(z)=e^z - z - 1 とする、扱いやすい作用汎関数を得る。
  • 転移をターゲット配列へ整列させるクロスエントロピー目的で、ニューラル制御場 u_theta を訓練(Eq. 10)。
  • 参照過程として ESM-2 ロジットを用い、マスキングの際に参照の影響を変調する時刻ゲーティング機構を導入。
  • 学習済みジェネレータ R_theta による CTMC を離散化して、N ステップでサンプリングが進化するよう、全マスクド事前分布から開始する。
Figure 1: Overview of MadSBM . We leverage a principled reference process $R_{0}$ so the MadSBM model requires only a lightweight time-conditioned control field $u_{\theta}$ to steer samples toward high-likelihood regions of the sequence space.
Figure 1: Overview of MadSBM . We leverage a principled reference process $R_{0}$ so the MadSBM model requires only a lightweight time-conditioned control field $u_{\theta}$ to steer samples toward high-likelihood regions of the sequence space.

実験結果

リサーチクエスチョン

  • RQ1生物学的に情報を得た参照過程を用いて、離散ペプチド空間で離散シュレディンガー橋を新たに解くことは可能か。
  • RQ2最小アクション目的の下で時刻依存の制御場を学習することで、離散拡散ベースラインと比較して効率的で高品質なペプチド生成が得られるか。
  • RQ3結合親和性などの目的指向ガイダンスを離散シュレディンガー橋サンプリングに組み込んで、機能設計を改善できるか。

主な発見

NModelPPL (lower is better)pLDDT (higher is better)
32DD10.990 ± 6.76671.608 ± 9.692
32MadSBM8.389 ± 10.87371.687 ± 11.835
64DD9.042 ± 4.67973.848 ± 9.436
64MadSBM8.943 ± 15.38471.604 ± 12.223
128DD7.617 ± 6.83475.784 ± 8.787
128MadSBM8.719 ± 12.92570.725 ± 12.041
  • MadSBMは、サンプリング予算を問わず、離散拡散ベースラインと比較して無条件配列品質(PPL が低い)で競争力を持つ、あるいはそれを上回る結果を示し、妥当な pLDDT スコアを持つ。
  • 無条件の結果では MadSBM の PPL は: 8.389, 8.943, 8.719、DD の PPL は: 10.990, 9.042, 7.617(N=32, 64, 128 で、低いほど良い)。
  • MadSBM はサンプリング中の適合性のある経路多様性を示し、DD ベースラインよりも高確率域への早期収束を可能にする。
  • 生物情報に基づく参照(ESM-2)と時刻ゲーティングのアブレーションは perplexity を劣化させ、参照ダイナミクス設計の妥当性を裏付ける。
  • 目的指向のサンプリングと結合親和性予測子を組み合わせると、無条件生成を超える親和性やドッキングスコアの改善が複数ターゲットで観察される。
Figure 2: Probability paths taken by models under various sampling budgets $(N)$ . The y-axis represents the NLL of the sequence at the current iteration, assessed by the ESM-2-650M protein language model. The shaded area around the traced trajectory represents the standard deviation of the NLL at t
Figure 2: Probability paths taken by models under various sampling budgets $(N)$ . The y-axis represents the NLL of the sequence at the current iteration, assessed by the ESM-2-650M protein language model. The shaded area around the traced trajectory represents the standard deviation of the NLL at t

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。