Skip to main content
QUICK REVIEW

[논문 리뷰] Protein Conformation Generation via Force-Guided SE(3) Diffusion Models

Yan Wang, Lihao Wang|arXiv (Cornell University)|2024. 03. 21.
Protein Structure and Dynamics인용 수 12
한 줄 요약

ConfDiff는 SE(3) 확산을 사용하고 시퀀스 조건 가이던스와 힘 가이드 중간 항을 통해 Boltzmann 분포에 맞춘 다양하고 고충실도 단백질 구성을 생성하며, 빠르게 접히는 단백질과 BPTI에서 최첨단 베이스라인을 능가한다.

ABSTRACT

The conformational landscape of proteins is crucial to understanding their functionality in complex biological processes. Traditional physics-based computational methods, such as molecular dynamics (MD) simulations, suffer from rare event sampling and long equilibration time problems, hindering their applications in general protein systems. Recently, deep generative modeling techniques, especially diffusion models, have been employed to generate novel protein conformations. However, existing score-based diffusion methods cannot properly incorporate important physical prior knowledge to guide the generation process, causing large deviations in the sampled protein conformations from the equilibrium distribution. In this paper, to overcome these limitations, we propose a force-guided SE(3) diffusion model, ConfDiff, for protein conformation generation. By incorporating a force-guided network with a mixture of data-based score models, ConfDiff can generate protein conformations with rich diversity while preserving high fidelity. Experiments on a variety of protein conformation prediction tasks, including 12 fast-folding proteins and the Bovine Pancreatic Trypsin Inhibitor (BPTI), demonstrate that our method surpasses the state-of-the-art method.

연구 동기 및 목표

  • 전통적인 MD와 단일 구조 예측을 넘어 단백질 구성 공간의 효율적인 샘플링 필요성을 고취한다.
  • MD 에너지를 통한 물리적 선행 조건을 존중하는 확산 기반 생성 프레임워크를 개발하여 저에너지 구성을 샘플링한다.
  • 시퀀스 조건 가이던스와 힘 기반 중간 가이던스를 활용하여 구성 품질과 다양성의 균형을 맞춘다.
  • 빠르게 접히는 단백질과 BPTI를 대상으로 평가하여 개선된 충실도와 Boltzmann 일치 샘플링을 입증한다.

제안 방법

  • 단백질 골격을 잔기당 SE(3) 프레임으로 표현하고, 각각의 SE(3) 다이나믹스로 평행이동과 회전을 확산한다.
  • 기준선 무조건 점수 모델과 시퀀스 조건부 점수 모델을 훈련하고, 샘플링 중 분류자-없음 가이던스를 통해 이를 결합한다.
  • 중간 확산 중간 에너지 함수 E_t를 사용한 에너지 가이던스를 도입하고 CEP 스타일 손실로 이를 근사하도록 네트워크를 훈련한다.
  • 중간 힘 가이던스 네트워크를 개발하여 중간 힘 E_t'를 근사하고 이를 역시간 샘플링에 주입하여 더 낮은 에너지 상태로 편향한다.
  • 힘 가이던스를 병렬 평행이동 성분에서만 추정하되, h_ψ(x_t,t)의 보간 형태를 사용하여 훈련을 안정화하고 경계 조건을 만족한다.
  • 참고: 훈련은 DSM 손실을 사용하고, 에너지/힘 네트워크는 기본 점수 모델과는 별도로 훈련된다.

실험 결과

연구 질문

  • RQ1SE(3)에서 힘 가이드 및 에너지 가이던스 확산이 다양하고 Boltzmann 분포에 충실한 단백질 구성들을 생성할 수 있는가?
  • RQ2Classifier-free 시퀀스 조건이 구성 다양성과 충실도 사이의 균형에 어떤 영향을 미치는가?
  • RQ3중간 에너지 및 힘 가이던스가 순수 데이터 기반 확산 베이스라인과 비교하여 샘플링 품질을 향상시키는가?
  • RQ4제안된 ConfDiff 변형들이 표준 단백질 구성 벤치마크에서 최첨단 확산 모델과 어떻게 비교되는가?

주요 결과

모델JS 거리(하향)Val-CA (상향)RMSE 접촉(하향)RMSFPwD (Å)Rg (Å)TICTIC-2D
EigenFold0.53/0.560.52/0.550.50/0.500.64/0.660.15/0.086.18/6.221.6/1.1
Str2Str-SDE0.34/0.320.30/0.240.39/0.380.56/0.580.97/0.983.68/4.017.8/8.0
Str2Str-ODE0.37/0.380.33/0.300.40/0.390.57/0.590.96/0.974.14/4.366.4/6.3
ConfDiff-Base0.29/0.270.25/0.220.36/0.370.52/0.520.89/0.913.61/3.576.1/5.9
ConfDiff-Energy0.34/0.340.31/0.290.39/0.400.54/0.560.97/0.973.65/3.807.1/6.1
ConfDiff-Force0.29/0.270.26/0.240.38/0.380.54/0.540.97/0.983.25/3.386.2/5.7
  • 힘 가이던스를 가진 ConfDiff는 베이스라인과 비교해 경쟁력 있거나 향상된 지표를 보이며, 에너지가 감소하고 다양성이 유지된다.
  • 빠르게 접히는 단백질에서 ConfDiff-Force와 ConfDiff-Base는 EigenFold 및 Str2Str 변종에 비해 더 낮거나 유사한 JS 거리와 더 높은 Val-CA 정확도를 달성한다.
  • 에너지 가이던스와 힘 가이던스 모두 샘플을 더 낮은 에너지 구성으로 유도하여 Boltzmann 일치 샘플링을 향상시킨다.
  • Classifier-free 가이던스는 샘플 품질과 다양성 간의 조정 가능한 트레이드오프를 제공하여 생성된 집합에 대해 더 나은 제어를 가능하게 한다.
  • 벤치마크 전반(BPTI 포함)에서 힘 가이드 접근법은 구조적 타당성과 MD 유도 엔sembl에 대한 분포적 유사성 측면에서 개선을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.