QUICK REVIEW

[논문 리뷰] Generalizable Protein Interface Prediction with End-to-End Learning.

Raphael J.L. Townshend, Rishi Bedi|arXiv (Cornell University)|2018. 07. 03.

Machine Learning in Materials Science참고 문헌 23인용 수 6

한 줄 요약

SASNet는 수동으로 선택한 특징에 의존하는 최신 기술보다 더 높은 성능을 보이며, 원자 좌표와 원자 종류만을 사용하여 단백질-단백질 상호작용 부위를 예측하는 엔드 투 엔드 딥 러닝 모델이다. 수동으로 선택한 특징에 의존하는 최신 기술보다 더 높은 성능을 보이며, 원자 좌표와 원자 종류만을 사용하여 단백질-단백질 상호작용 부위를 예측하는 엔드 투 엔드 딥 러닝 모델이다. 훈련 데이터에 편향이 있고 변형 모델링이 없는 상황에서도 변형된 단백질 복합체로의 일반화가 잘 되어 있어, 단백질의 기본적인 구조적 및 운동적 원리를 학습한 것으로 나타난다.

ABSTRACT

Predicting how proteins interact with one another - that is, which surfaces of one protein bind to which surfaces of another protein - is a central problem in biology. Here we present Siamese Atomic Surfacelet Network (SASNet), the first end-to-end learning method for protein interface prediction. Despite using only spatial coordinates and identities of atoms as inputs, SASNet outperforms state-of-the-art methods that rely on complex, hand-selected features. These results are particularly striking because we train the method entirely on a significantly biased data set that does not account for the fact that proteins deform when binding to one another. Nonetheless, our network maintains high performance, without retraining, when tested on real cases in which proteins do deform. This suggests that it has learned fundamental properties of protein structure and dynamics, which has important implications for a variety of key problems related to biomolecular structure.

연구 동기 및 목표

수동으로 선택한 구조적 특징이 필요 없는 엔드 투 엔드 학습 방법을 개발하여 단백질 상호작용 부위 예측에 응용한다.
결합 시 구조적 변화를 겪는 실제 단백질 복합체에 대한 일반화 성능을 향상시킨다.
편향된 데이터셋에서 훈련되었고 변형을 고려하지 않은 모델이 변형된 경우에도 잘 작동하는가를 평가한다.
자기 지율적 표현 학습을 통해 단백질의 내재된 구조적 및 운동적 특성을 얼마나 잘 학습하는지 탐구한다.

제안 방법

SASNet는 두 단백질 구조를 대칭적으로 처리하는 시아미즈 아키텍처를 사용하여, 상호작용 영역의 공동 표현 학습을 가능하게 한다.
원자 수준의 공간적 및 화학적 정보를 인코딩하기 위해 학습된 국소 표면 표현인 원자 표면 요소(atomic surfacelets)를 사용한다.
모델은 수동으로 설계된 특징 없이 원자 좌표와 원소 종류만을 입력으로 사용하여 엔드 투 엔드로 훈련된다.
유사한 상호작용 영역이 비록 다양한 단백질 쌍 간이어도 유사한 임베딩을 가지도록 유도하기 위해 대비 학습 목적함수를 활용한다.
모델 아키텍처는 강체 변환에 대해 불변성을 가지도록 설계되어 있어 구조적 변형에 대한 강건성을 확보한다.

실험 결과

연구 질문

RQ1원자 좌표와 원자 종류만을 사용하여 엔드 투 엔드 딥 러닝 모델이 높은 정확도로 단백질-단백질 상호작용 부위를 예측할 수 있는가?
RQ2변형되지 않은, 편향된 데이터셋에서 훈련된 모델이 단백질이 결합 시 변형되는 실제 결합 사례로 일반화되는가?
RQ3모델이 훈련 데이터를 암기하는 것이 아니라 단백질의 기본적인 구조적 및 운동적 특성을 얼마나 잘 학습하는가?
RQ4특징 기반 방법에 비해 복잡한 수동 특징을 사용하는 최신 기술과 비교해 복합 엔드 투 엔드 모델의 성능은 어떠한가?

주요 결과

SASNet는 복잡한 수동으로 선택한 특징을 사용하는 기존 최신 기술보다 뛰어난 성능을 보이며, 입력으로 원자 좌표와 원자 종류만을 사용한다.
모델은 훈련 중에 이러한 경우를 명시적으로 다루지 않았음에도 불구하고 변형된 단백질 복합체를 포함한 테스트 케이스에서 높은 성능를 유지한다.
변형된 복합체로의 일반화 성능은 SASNet가 훈련 데이터 편향을 초월해 단백질의 구조적 및 운동적 기본 원리를 학습했다는 것을 시사한다.
엔드 투 엔드 접근 방식의 성공은 높은 정확도의 상호작용 예측을 위해 복잡한 특징 엔지니어링이 반드시 필요하지 않음을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.