Skip to main content
QUICK REVIEW

[논문 리뷰] Efficient Protein Optimization via Structure-aware Hamiltonian Dynamics

Jiahao Wang, Shuangjia Zheng|arXiv (Cornell University)|2026. 01. 16.
Protein Structure and Dynamics인용 수 0
한 줄 요약

HADES는 구조 정보에 기반한 베이지안 최적화와 해밀토니안 다이내믹스를 결합하여 단백질 서열 공간을 효과적으로 탐색하고 고적합도이며 구조적으로 호환되는 변형을 설계하며, GB1과 PhoQ에서의 인실리코 테스트에서 기준선보다 우수함을 보여준다.

ABSTRACT

The ability to engineer optimized protein variants has transformative potential for biotechnology and medicine. Prior sequence-based optimization methods struggle with the high-dimensional complexities due to the epistasis effect and the disregard for structural constraints. To address this, we propose HADES, a Bayesian optimization method utilizing Hamiltonian dynamics to efficiently sample from a structure-aware approximated posterior. Leveraging momentum and uncertainty in the simulated physical movements, HADES enables rapid transition of proposals toward promising areas. A position discretization procedure is introduced to propose discrete protein sequences from such a continuous state system. The posterior surrogate is powered by a two-stage encoder-decoder framework to determine the structure and function relationships between mutant neighbors, consequently learning a smoothed landscape to sample from. Extensive experiments demonstrate that our method outperforms state-of-the-art baselines in in-silico evaluations across most metrics. Remarkably, our approach offers a unique advantage by leveraging the mutual constraints between protein structure and sequence, facilitating the design of protein sequences with similar structures and optimized properties. The code and data are publicly available at https://github.com/GENTEL-lab/HADES.

연구 동기 및 목표

  • 고차원적이고 에피타시스가 풍부한 최적화 문제로서 단백질 엔지니어링의 동기를 제시한다.
  • 단백질 구조를 사전 정보로 활용하여 적합도 지형을 매끄럽게 한다.
  • 구조 인지적 베이지안 최적화 프레임워크를 개발하여 유망한 변종을 샘플링한다.
  • 연속 표현으로부터 위치 이산화 루틴을 통해 이산 서열 제안을 가능하게 한다.

제안 방법

  • 연속적인 단백질 상태 공간에서 먼 샘플을 제안하기 위해 해밀토니안 다이내믹스를 사용한다.
  • 잠재 에너지 U(q)를 대리 예측기 하에서의 음의 로그 확률로 정의하고, 운동량 기반의 운동 에너지 K(p)를 둔다.
  • 런드롭 업데이트 중에 가상 장애물/바운스 메커니즘을 사용하여 연속 상태를 이산 아미노산 서열로 이산화한다.
  • 다양한 대리모 모델의 앙상블과 상한 신뢰도 구간(UCB)을 이용한 불확실성 인식 획득을 사용한다.
  • 공유 시퀀스 인코더와 구조 및 적합도 디코더를 분리한 두 단계 인코더-디코더 대리모를 구현하고, ESMFold에서의 RMSD 사전을 사용하여 학습한다.

실험 결과

연구 질문

  • RQ1구조 인지적 사전정보가 단백질 설계에 대한 베이지안 최적화를 안정화하고 가속화할 수 있는가?
  • RQ2해밀토니안 다이내믹스 기반 샘플링이 고차원적이고 이산적인 서열 공간에서 탐색을 개선하는가?
  • RQ3구조 교란을 사전정보로 도입하는 것이 설계된 단백질의 품질과 다양성에 어떤 영향을 미치는가?
  • RQ4불확실성 추정 및 이산화 제약이 설계 성능에 미치는 영향은 무엇인가?

주요 결과

  • HADES는 GB1와 PhoQ에서 누적 최댓값 적합도, 평균 적합도 및 다양성 지표에서 최첨단 기준선보다 우수하게 나타난다.
  • GB1에서 HADES는 10회 실행 중 최적 시퀀스를 식별적으로 발견했으며 분산이 0이었다.
  • PhoQ에서 HADES는 최대 적합도가 더 높고 실행 간 기능적 다양성(fDiv)을 유지한다.
  • 아블레이션은 해밀토니안 샘플링이나 구조 사전을 제거하면 성능이 감소하고, 불확실성 및 가상 장애물이 이산화 오류에 대한 견고성을 향상시킨다.
  • 결과는 더 큰 질의 예산(K) 및 라운드에서 규모가 우호적으로 증가하여 기준선과의 차이가 커진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.