[논문 리뷰] Variational embedding of protein folding simulations using Gaussian mixture variational autoencoders
이 논문은 Gumbel-softmax 재정의를 통해 엔드 투 엔드 미분 가능성을 확보한 가우시안 믹스처 변분 오토인코더(GMVAE)를 소개한다. 이 모델은 단일 단백질 접힘 궤적에 대해 차원 축소와 클러스터링을 동시에 수행하며, 잘 분리된 준안정 상태를 가진 펌프 모양의 자유 에너지 경관을 학습한다. 잠재 공간은 TICA 기반의 마르코프 모델에서 관측된 것과 유사한 접힘 시간스케일을 반영한 정확한 운동학적 모델링을 가능하게 한다.
Conformational sampling of biomolecules using molecular dynamics simulations often produces large amount of high dimensional data that makes it difficult to interpret using conventional analysis techniques. Dimensionality reduction methods are thus required to extract useful and relevant information. Here we devise a machine learning method, Gaussian mixture variational autoencoder (GMVAE) that can simultaneously perform dimensionality reduction and clustering of biomolecular conformations in an unsupervised way. We show that GMVAE can learn a reduced representation of the free energy landscape of protein folding with highly separated clusters that correspond to the metastable states during folding. Since GMVAE uses a mixture of Gaussians as the prior, it can directly acknowledge the multi-basin nature of protein folding free-energy landscape. To make the model end-to-end differentialble, we use a Gumbel-softmax distribution. We test the model on three long-timescale protein folding trajectories and show that GMVAE embedding resembles the folding funnel with folded states down the funnel and unfolded states outer in the funnel path. Additionally, we show that the latent space of GMVAE can be used for kinetic analysis and Markov state models built on this embedding produce folding and unfolding timescales that are in close agreement with other rigorous dynamical embeddings such as time independent component analysis (TICA).
연구 동기 및 목표
- 분자 동역학 시뮬레이션에서 유도된 고차원적이고 고성능의 단백질 접힘 궤적을 해석하는 데 도전하는 데에 대비하기 위해.
- 생물분자의 구조적 형태를 동시에 차원 축소와 클러스터링하는 비지도 기계학습 방법을 개발하기 위해.
- 변분 오토인코더 프레임워크 내에서 가우시안 믹스처를 사전 분포로 사용하여 단백질 접힘 자유 에너지 경관의 다구역 특성을 포착하기 위해.
- 후속 분석(예: 마르코프 상태 모델링)을 위한 운동학 정보를 유지하는, 미분 가능하고 엔드 투 엔드로 훈련 가능한 모델을 구축하기 위해.
- 장시간 스케일 접힘 시뮬레이션에 모델을 검증하고, 기존의 접힘 운동학과 구조적 상태를 재현할 수 있는 능력을 입증하기 위해.
제안 방법
- 잠재 공간 내의 다중 모드 데이터 분포를 모델링하기 위해 가우시안 믹스처 사전 분포를 사용하는 변분 오토인코더를 적용하여 준안정 상태의 클러스터링을 가능하게 한다.
- 이산 클러스터 할당을 미분 가능하게 하기 위해 Gumbel-softmax 재정의를 사용하여 확률적 샘플링 레이어를 통해 엔드 투 엔드 역전파를 가능하게 한다.
- 입력으로 정규화된 Cα 거리 맵에 컨볼루션 신경망 레이어를 적용하여 이동 불변 방식으로 국소적인 구조 패턴을 추출한다.
- 재구성 손실과 사후 분포 및 사전 분포 간의 KL 발산을 최소화하는 변분 목표를 통해 잠재 공간을 훈련한다.
- 훈련 후 클러스터 할당을 향상시키기 위해 k-최근접 이웃을 사용하여 각 구조적 형태를 주변에서 가장 가능성 높은 클러스터에 할당한다.
- GMVAE 임bedding 공간에 기반한 마르코프 상태 모델을 구성하여 평균 제1도달 시간을 계산하고 운동학 정확도를 검증한다.
실험 결과
연구 질문
- RQ1GMVAE와 같은 딥 생성 모델이 단백질 접힘 자유 에너지 경관의 저차원 해석 가능한 표현을 효과적으로 학습할 수 있는가?
- RQ2표준 VAE에 비해 단일 모드 사전 분포를 사용하는 것보다 가우시안 믹스처 사전 분포를 사용함으로써 준안정 상태의 클러스터링 성능이 향상되는가?
- RQ3GMVAE로 학습된 잠재 공간이 운동학 정보를 유지할 수 있는가? 이는 접힘 및 탈접힘 시간스케일의 정확한 추정을 가능하게 하는가?
- RQ4TICA와 같은 기존 방법과 비교했을 때 모델의 성능은 접힘 펌프와 운동학 전이를 포착하는 데 얼마나 우수한가?
- RQ5모델의 하이퍼파ram터 선택(예: 클러스터 수, 임베딩 차원)이 운동학 예측의 안정성과 정확성에 얼마나 큰 영향을 미치는가?
주요 결과
- GMVAE는 접힘 상태가 바닥에 집중되어 있고, 편향 상태가 외곽으로 퍼져 있는 펌프 모양의 잠재 공간을 학습하였다. 이는 접힘 펌프 모델과 일치한다.
- 잠재 공간의 클러스터는 각각 접힘, 잘못 접힌, 편향된 형태에 해당하며, 접힘 클러스터의 RMSD 분포가 낮고 좁다는 점으로 확인되었다.
- 트립타이어-케이지의 경우 접힘과 탈접힘의 평균 제1도달 시간이 각각 2.25 µs와 1.54 µs로 측정되었으며, DE Shaw 팀이 보고한 2.8 µs와 매우 유사하였다.
- 재구성 손실과 교차 엔트로피 손실이 3차원 잠재 공간에서 최소화되었으며, 차원을 10으로 늘여도 성능 향상은 미미하였다.
- 모델은 히드로젠 결합의 분해(예: S3 → S0)와 같은 핵심 접힘 전이를 성공적으로 식별하였으며, 이는 알려진 실험 및 시뮬레이션 연구와 일치한다.
- 훈련 중에 지연 시간 정보를 사용하지 않았음에도 불구하고, GMVAE 임베딩은 정확한 운동학 모델링을 가능하게 하였으며, 느린 과정의 음의 시간스케일은 수렴하였다. 다만, 빠른 동역학(예: 비릴린)의 경우 신뢰할 수 있는 추정을 위해 더 긴 지연 시간이 필요하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.