QUICK REVIEW

[논문 리뷰] Pre-Training of Deep Bidirectional Protein Sequence Representations with Structural Information

Seonwoo Min, Seunghyun Park|arXiv (Cornell University)|2019. 11. 25.

Genomics and Phylogenetic Studies참고 문헌 59인용 수 26

한 줄 요약

이 논문은 마스크된 언어 모델링과 단백질 전용 동일가족 예측 작업을 통합한 새로운 사전 훈련 프레임워크인 PLUS를 제안한다. 비라벨링된 시퀀스로부터 구조적이고 진화적인 정보를 활용함으로써, PLUS-RNN은 일곱 가지 주요 단백질 생물학 작업에서 기존 모델들을 능가하며, 특히 긴 시퀀스와 복잡한 구조 예측에서 뛰어난 일반화 능력과 강건성을 보여준다.

ABSTRACT

Bridging the exponentially growing gap between the numbers of unlabeled and labeled protein sequences, several studies adopted semi-supervised learning for protein sequence modeling. In these studies, models were pre-trained with a substantial amount of unlabeled data, and the representations were transferred to various downstream tasks. Most pre-training methods solely rely on language modeling and often exhibit limited performance. In this paper, we introduce a novel pre-training scheme called PLUS, which stands for Protein sequence representations Learned Using Structural information. PLUS consists of masked language modeling and a complementary protein-specific pre-training task, namely same-family prediction. PLUS can be used to pre-train various model architectures. In this work, we use PLUS to pre-train a bidirectional recurrent neural network and refer to the resulting model as PLUS-RNN. Our experiment results demonstrate that PLUS-RNN outperforms other models of similar size solely pre-trained with the language modeling in six out of seven widely used protein biology tasks. Furthermore, we present the results from our qualitative interpretation analyses to illustrate the strengths of PLUS-RNN. PLUS provides a novel way to exploit evolutionary relationships among unlabeled proteins and is broadly applicable across a variety of protein biology tasks. We expect that the gap between the numbers of unlabeled and labeled proteins will continue to grow exponentially, and the proposed pre-training method will play a larger role.

연구 동기 및 목표

라벨이 붙지 않은 단백질 시퀀스와 라벨이 붙은 단백질 시퀀스 사이의 증가하는 불균형을 해결하기 위해 반감독형 사전 훈련 방법을 개발한다.
표준 언어 모델링을 넘어서 진화적이고 구조적인 관계를 통합함으로써 단백질 표현 학습을 향상시킨다.
단백질 간의 기능적이고 진화적인 유사성을 포착하는 보조 사전 훈련 작업인 동일가족 예측을 설계한다.
기능 예측, 구조 예측, 맴브레인 영역 탐지와 같은 다양한 최종 단백질 생물학 작업에서 PLUS의 효과를 평가한다.
구조적 정보를 활용한 사전 훈련이 표준 언어 모델링만으로 하는 것보다 더 나은 일반화 능력과 성능을 제공함을 입증한다.

제안 방법

이 방법은 마스크된 언어 모델링(MLM)과 동일가족 예측(SFP)이라는 이중 사전 훈련 목표를 도입하여 단백질 표현을 공동 최적화한다.
PLUS-RNN은 대규모 비라벨링된 단백질 시퀀스에서 MLM 및 SFP 작업을 함께 사용해 사전 훈련한 이중 방향 RNN 아키텍처이다.
SFP 작업은 진화적 관계를 활용하여 두 단백질이 같은 가족에 속하는지 예측함으로써 쌍별 표현을 학습하도록 유도한다.
사전 훈련 중 모델은 MLM과 SFP 손실의 가중 조합을 사용하여 최적화되며, 하이퍼파ram터 λ_PT 가 이들의 상대적 중요도를 조절한다.
微조정(fine-tuning)은 MLM과 작업별 손실의 조합된 손실을 사용하며, λ_FT 가 이들의 트레이드오프를 조절하여 일반화 능력을 향상시킨다.
RNN 및 Transformer(PLUS-TFM)를 포함한 다양한 아키텍처에서 프레임워크를 평가하여, 다양한 모델 유형 간의 확장성과 강건성을 입증한다.

실험 결과

연구 질문

RQ1마스크된 언어 모델링과 단백질 전용 사전 훈련 작업을 통합하면 최종 단백질 생물학 작업의 표현 학습 성능이 향상되는가?
RQ2보조 사전 훈련 목표로 동일가족 예측을 포함할 경우 언어 모델링만 하는 것과 비교해 성능에 어떤 영향을 미치는가?
RQ3PLUS 프레임워크는 특히 주의 기반 모델의 컨텍스트 창을 초월하는 긴 단백질 시퀀스에 대해 일반화되는가?
RQ4구조적이고 진화적인 정보를 활용한 사전 훈련이 다양한 최종 작업에서 일반화 능력과 성능을 얼마나 향상시키는가?
RQ5MLM과 SFP 작업의 공동 최적화가 모델의 강건성과 미세조정 성능에 어떤 영향을 미치는가?

주요 결과

PLUS-RNN은 일곱 가지 벤치마크 단백질 생물학 작업 중 여섯 곳에서 언어 모델링으로만 사전 훈련된 모든 비교 모델들을 능가하며, 뛰어난 일반화 능력을 보였다.
동일가족 예측(SFP) 작업은 성능 향상에 크게 기여하였으며, MLM과 조합했을 때 특히 효과적이었고, MLM을 제거하는 것보다 더 유익함을 보여, SFP의 보완적 역할을 입증했다.
MLM과 작업별 손실을 모두 사용한 미세조정은 작업별 손실만 사용한 경우보다 일관되게 성능 향상을 이뤘으며, 이는 MLM이 정규화 기능을 수행함을 시사한다.
PLUS-RNN은 단백질 길이에 관계없이 뛰어난 성능를 유지했지만, PLUS-TFM는 긴 시퀀스(512 아미노산 초과)에서 성능 저하를 보였으며, 고정 컨텍스트 어텐션 모델의 한계를 드러냈다.
제거 실험(ablation study) 결과 두 사전 훈련 작업 모두 긍정적인 기여를 했으며, MLM이 더 강한 영향을 미쳤지만, SFP는 필수적인 진화적 맥락을 제공했다.
결과적으로 SFP를 통한 진화적 관계의 활용은 먼 친연관 단백질들 사이의 기능적·구조적 유사성을 포착하는 데 모델의 능력을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.