Skip to main content
QUICK REVIEW

[论文解读] Dirichlet Diffusion Score Model for Biological Sequence Generation

Pavel Avdeyev, Chenlai Shi|PubMed|May 18, 2023
Genetic and phenotypic traits in livestock参考文献 11被引用 8
一句话总结

一个 Dirichlet 扩散分数模型(DDSM)通过在概率单纯形上扩散并以 Dirichlet 稳态分布为基础,将分数扩散扩展到离散数据,从而实现对受约束的序列设计,例如数独谜题和人类启动子 DNA 序列的设计。

ABSTRACT

Designing biological sequences is an important challenge that requires satisfying complex constraints and thus is a natural problem to address with deep generative modeling. Diffusion generative models have achieved considerable success in many applications. Score-based generative stochastic differential equations (SDE) model is a continuous-time diffusion model framework that enjoys many benefits, but the originally proposed SDEs are not naturally designed for modeling discrete data. To develop generative SDE models for discrete data such as biological sequences, here we introduce a diffusion process defined in the probability simplex space with stationary distribution being the Dirichlet distribution. This makes diffusion in continuous space natural for modeling discrete data. We refer to this approach as Dirchlet diffusion score model. We demonstrate that this technique can generate samples that satisfy hard constraints using a Sudoku generation task. This generative model can also solve Sudoku, including hard puzzles, without additional training. Finally, we applied this approach to develop the first human promoter DNA sequence design model and showed that designed sequences share similar properties with natural promoter sequences.

研究动机与目标

  • 在离散生物序列设计中证明需要满足硬性约束的生成模型的必要性。
  • 引入在概率单纯形上以 Dirichlet 稳态分布为基础的连续时间扩散过程。
  • 通过 stick-breaking 和 Jacobi 扩散,开发用于 k 类离散数据的基于分数的扩散框架。
  • 在受约束数据任务(数独)和现实世界生物学应用(人类启动子设计)中演示模型。
  • 为离散空间中的 Dirichlet 扩散提供训练、采样和似然估计工具。

提出的方法

  • 使用多变量 Jacobi 扩散在概率单纯形上构建前向扩散,通过 stick-breaking 收敛到 Dirichlet(…) 稳态分布。
  • 定义使用学习到的分数函数的反向时间 SDE 和概率流 ODE 来对离散数据进行采样。
  • 使用针对 Jacobi 扩散量身定制的广义分数匹配损失进行训练,包括一个似然启发的加权和变量变换相关的考虑。
  • 通过利用两点初始条件(0/1)和预计算密度来实现高效采样,并可选时间膨胀以提升采样质量。
  • 通过概率流 ODE 提供似然框架,并为离散数据似然性给出基于 ELBO 的界。
  • 通过对启动子设计设置条件化生成,在转录起始信号轮廓上进行条件化生成。

实验结果

研究问题

  • RQ1带 Dirichlet 稳态的在概率单纯形上的连续时间扩散是否能有效建模离散数据如生物序列?
  • RQ2如何通过 stick-breaking 和 Jacobi 扩散过程将分数扩散适配为多类别离散数据?
  • RQ3在多大程度上 DDSM 能在保持目标性质的同时生成高度受约束的离散数据(如数独谜题)并设计现实世界的生物序列(启动子 DNA)?
  • RQ4在离散空间中进行 Dirichlet 扩散的实际训练、采样和似然估计策略有哪些?

主要发现

  • DDSM 在二值化的 MNIST 上的负对数似然与若干基线相比具有竞争力。
  • 模型能够生成并求解数独谜题,在时间膨胀和条件化技术的帮助下实现最高 100% 的生成准确率。
  • 首次展示了人类启动子 DNA 序列设计的方法,所生成的启动子具有与天然启动子相似的特性,且启动子活性预测具有竞争力。
  • 时间膨胀和采样策略提升样本质量和谜题求解成功率,在受约束生成任务中优于若干扩散基线。
  • 条件化的启动子设计设置实现了在转录起始轮廓条件下的受控生成,生成序列的活性与真值启动子接近。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。