Skip to main content
QUICK REVIEW

[논문 리뷰] Dirichlet Diffusion Score Model for Biological Sequence Generation

Pavel Avdeyev, Chenlai Shi|PubMed|2023. 05. 18.
Genetic and phenotypic traits in livestock참고 문헌 11인용 수 8
한 줄 요약

Dirichlet diffusion score model (DDSM)는 Dirichlet 위치 분포를 갖는 확률 단면에서의 확산을 통해 점수 기반 확산을 이산 데이터로 확장하여 Sudoku puzzles 및 human promoter DNA sequences와 같은 제약된 서열 설계를 가능하게 한다.

ABSTRACT

Designing biological sequences is an important challenge that requires satisfying complex constraints and thus is a natural problem to address with deep generative modeling. Diffusion generative models have achieved considerable success in many applications. Score-based generative stochastic differential equations (SDE) model is a continuous-time diffusion model framework that enjoys many benefits, but the originally proposed SDEs are not naturally designed for modeling discrete data. To develop generative SDE models for discrete data such as biological sequences, here we introduce a diffusion process defined in the probability simplex space with stationary distribution being the Dirichlet distribution. This makes diffusion in continuous space natural for modeling discrete data. We refer to this approach as Dirchlet diffusion score model. We demonstrate that this technique can generate samples that satisfy hard constraints using a Sudoku generation task. This generative model can also solve Sudoku, including hard puzzles, without additional training. Finally, we applied this approach to develop the first human promoter DNA sequence design model and showed that designed sequences share similar properties with natural promoter sequences.

연구 동기 및 목표

  • 디스크리트 생물학적 서열 설계에서 하드 제약을 만족하는 생성 모델의 필요성을 동기화한다.
  • Dirichlet 고정 분포를 갖는 확률 단면에서 연속 시간 확산 프로세스를 도입한다.
  • k-카테고리 이산 데이터에 대해 stick-breaking 및 Jacobi 확산을 이용한 점수 기반 확산 프레임워크를 개발한다.
  • 제약된 데이터 작업(Sudoku) 및 실제 생물학적 응용(인간 프로모터 설계)에서 모델을 시연한다.
  • Dirichlet 확산의 이산 공간에서의 학습, 샘플링 및 가능도 추정 도구를 제공한다.

제안 방법

  • forward diffusion을 Dirichlet(…) stationary distributions로 수렴하는 multivariate Jacobi diffusions를 이용해 확률 단면에서 구성하고 stick-breaking을 활용한다.
  • 학습된 score function을 사용하여 discrete 데이터를 샘플링하는 역시간 SDE 및 확률 흐름 ODE를 정의한다.
  • Jacobi diffusion에 맞춘 일반화된 score-matching 손실과 가능도 영감을 받은 가중치 및 변수 치환 고려 사항을 포함하여 학습한다.
  • 샘플 품질 향상을 위한 시간 확장(time-dilation) 옵션과 함께 0/1의 이주 초기 조건 및 미리 계산된 밀도를 활용하여 효율적인 샘플링을 가능하게 한다.
  • 확률 흐름 ODE 및 이산 데이터 가능도에 대한 ELBO 기반 바운드를 통해 가능도 프레임워크를 제공한다.
  • 전사 시작 신호 프로필에 조건을 부여하는 조건부 생성 설정을 프로모터 설계에 적용한다.

실험 결과

연구 질문

  • RQ1확률 단면에서 연속 시간 확산이 Dirichlet stationarity를 가지며 생물학적 서열과 같은 이산 데이터를 효과적으로 모델링할 수 있는가?
  • RQ2stick-breaking 및 Jacobi 확산 과정을 통해 다범주 이산 데이터에 대해 점수 기반 확산을 어떻게 적용할 수 있는가?
  • RQ3DDSM이 Sudoku 퍼즐과 같은 제약된 이산 데이터를 얼마나 잘 생성/해석하고 인간 프로모터 DNA 서열 설계와 같은 실제 생물학적 서열 설계에 적용될 수 있는가, 목표 특성을 보존하는 정도는 어느 정도인가?
  • RQ4Dirichlet 확산에서의 이산 공간 학습, 샘플링 및 가능도 추정의 실용적인 전략은 무엇인가?

주요 결과

  • DDSM은 이진화된 MNIST에 대해 여러 베이스라인과 비교해 음의 로그 가능도에서 경쟁력을 보인다.
  • 모델은 Sudoku 퍼즐을 생성하고 해결할 수 있으며, 시간 확장 및 조건화 기법을 사용하면 최대 100%의 생성 정확도를 달성한다.
  • 인간 프로모터 DNA 서열 설계에 대한 최초의 방법을 시연했으며, 생성된 프로모터는 자연적인 프로모터와 특성을 공유하고 경쟁적인 프로모터 활성 예측을 보인다.
  • 시간 확장 및 샘플링 전략은 샘플 품질과 퍼즐 해결 성공을 향상시키며, 제약된 생성 작업에서 여러 확산 벤치마크를 능가한다.
  • 조건부 프로모터 설계 설정은 전사 시작 프로파일에 조건부로 제어된 생성을 가능하게 하며Ground-truth 프로모터와 비교 가능한 활성도를 보이는 서열을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.