[논문 리뷰] Variational auto-encoding of protein sequences
이 논문은 단일 및 이중 돌연변이의 기능적 영향을 예측하고 서열-구조 관계를 발견할 수 있도록 다중 서열 정렬(MSA)을 사용하여 비지도로 단백질 서열의 표현을 위한 변분 오토인코더(VAE)를 제안한다. VAE는 쌍별 및 고차원 상호작용을 포착하는 연속적이고 저차원의 잠재 공간을 학습하며, 기준 모델을 능가하고 역-포츠 성능에 가까이 접근한다.
Proteins are responsible for the most diverse set of functions in biology. The ability to extract information from protein sequences and to predict the effects of mutations is extremely valuable in many domains of biology and medicine. However the mapping between protein sequence and function is complex and poorly understood. Here we present an embedding of natural protein sequences using a Variational Auto-Encoder and use it to predict how mutations affect protein function. We use this unsupervised approach to cluster natural variants and learn interactions between sets of positions within a protein. This approach generally performs better than baseline methods that consider no interactions within sequences, and in some cases better than the state-of-the-art approaches that use the inverse-Potts model. This generative model can be used to computationally guide exploration of protein sequence space and to better inform rational and automatic protein design.
연구 동기 및 목표
- 자연적 단백질 변이의 다중 서열 정렬(MSA)에서 유도된 천연 서열 변동성을 활용하여 비지도로 깊이 있는 생성 모델을 개발한다.
- 라벨이 부여된 적합도 데이터 없이 단일 및 이중 아미노산 돌연변이의 기능적 영향을 예측한다.
- 진화적이고 기능적인 관계를 반영하는 연속적이고 저차원의 잠재 공간을 학습한다.
- 합리적인 단백질 설계를 위한 단백질 서열 공간의 계산적 탐색을 가능하게 한다.
제안 방법
- 자연적 단백질 변이의 다중 서열 정렬(MSA)에서 훈련된 변분 오토인코더(VAE)는 압축되고 연속적인 잠재 표현을 학습한다.
- 모델은 잠재 변수에 대한 진짜 사후분포를 근사하기 위해 증거 하한값(ELBO)을 최대화하는 변분 추론을 사용한다.
- 에코더는 원-핫 인코딩된 단백질 서열을 잠재 가우시안 분포로 매핑하고, 디코더는 샘플링된 잠재 벡터에서 입력 서열을 재구성한다.
- VAE는 잠재 공간을 표준 정규분포에 가깝게 유지하기 위해 KL 발산 항을 포함한다.
- 재구성 결과의 차이를 통해, 모델은 아미노산 위치 간 비선형 의존성과 고차원 상호작용을 포착한다.
- t-SNE를 사용하여 2차원으로 잠재 공간을 시각화하여, 계통수 집합과 기준 서열에 가까운 돌연변이의 위치를 확인할 수 있었다.
실험 결과
연구 질문
- RQ1비라벨 MSA에서 의미 있는 연속적 표현을 학습할 수 있는가? 이 표현은 기능적이고 진화적 관계를 반영하는가?
- RQ2기준 모델 및 최첨단 모델 대비 VAE는 단일 및 이중 돌연변이의 기능적 영향을 얼마나 잘 예측하는가?
- RQ3학습된 잠재 공간은 계통수 거리와 돌연변이 영향과 같은 생물학적으로 관련된 구조를 인코딩하는가?
- RQ4쌍별 상관관계를 넘어서 아미노산 위치 간 고차원 상호작용을 포착할 수 있는가?
- RQ5연속적인 잠재 공간은 기능적 설계를 위한 단백질 서열 공간 탐색을 지도하는 데 사용될 수 있는가?
주요 결과
- VAE가 예측한 기능적 점수는 실험적 적합도 측정값과 강하게 상관되며, 다섯 개의 테스트 데이터셋에서 독립 및 쌍별 기준 모델을 모두 능가한다.
- PABP 단백질의 경우, 더 큰 MSA 크기를 고려할 때 VAE는 역-포츠 모델을 초월하여 단일 및 이중 돌연변이의 적합도 영향을 더 잘 예측한다.
- 2차원 잠재 공간 투영은 최소 편집거리 그룹에 해당하는 명확한 클러스터를 드러내어, 모델이 계통수 및 진화적 관계를 포착하고 있음을 시사한다.
- 단일 돌연변이가 재구성 과정에서 여러 위치의 아미노산 확률에 변화를 유도함으로써, 모델이 국소적이지 않은 고차원 상호작용을 인코딩할 수 있음을 보여준다.
- 잠재 공간은 연속적 탐색이 가능하여 기존 이산 탐색 방법과는 다를 바 있는 기울기 기반 최적화를 위한 새로운 길을 열어준다.
- 모델은 높은 가능도를 가진 유의미한 새로운 서열을 생성하여 가상 걸러내기 및 탈-노보 단백질 설계에서의 유용성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.