Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluating Protein Transfer Learning with TAPE

Roshan Rao, Nicholas Bhattacharya|PubMed|2019. 06. 19.
Machine Learning in Bioinformatics참고 문헌 56인용 수 80
한 줄 요약

이 논문은 단백질 서열 표현에 대한 자기지도(pretraining)를 다섯 가지 다운스트림 작업에서 벤치마킹합니다. 대부분의 모델에서 이득을 보였지만 단일 우승자는 없으며 정렬 기반 특징이 일부 구조 작업에서 여전히 강력하다는 것을 보여줍니다.

ABSTRACT

Machine learning applied to protein sequences is an increasingly popular area of research. Semi-supervised learning for proteins has emerged as an important paradigm due to the high cost of acquiring supervised protein labels, but the current literature is fragmented when it comes to datasets and standardized evaluation techniques. To facilitate progress in this field, we introduce the Tasks Assessing Protein Embeddings (TAPE), a set of five biologically relevant semi-supervised learning tasks spread across different domains of protein biology. We curate tasks into specific training, validation, and test splits to ensure that each task tests biologically relevant generalization that transfers to real-life scenarios. We benchmark a range of approaches to semi-supervised protein representation learning, which span recent work as well as canonical sequence learning techniques. We find that self-supervised pretraining is helpful for almost all models on all tasks, more than doubling performance in some cases. Despite this increase, in several cases features learned by self-supervised pretraining still lag behind features extracted by state-of-the-art non-neural techniques. This gap in performance suggests a huge opportunity for innovative architecture design and improved modeling paradigms that better capture the signal in biological sequences. TAPE will help the machine learning community focus effort on scientifically relevant problems. Toward this end, all data and code used to run these experiments are available at https://github.com/songlab-cal/tape.

연구 동기 및 목표

  • 단백질 표현 학습을 위한 표준화된 다중 작업 벤치마크의 필요성을 촉구한다.
  • 다양하고 생물학적으로 관련된 다섯 가지 다운스트림 작업으로 단백질 임베딩을 평가하는 Tasks Assessing Protein Embeddings (TAPE)를 만든다.
  • 통합된 데이터 분할에서 여러 신경망 아키텍처와 자기지도 손실을 평가한다.
  • 자기지도 사전학습이 도움이 되는 시점과 전통적 정렬 특징이 학습 표현보다 우수한 시점을 정량화한다.

제안 방법

  • 구조 예측, 진화적 이해, 단백질 공학에 걸친 다섯 가지 다운스트림 작업을 선별한다.
  • 라벨이 없는 Pfam 시퀀스를 사용하여 next-token 및 masked-token 목표(및 단백질 특수 변형)를 적용하는 자기지도 사전학습을 수행한다.
  • 세 가지 아키텍처(LSTM, Transformer, ResNet)와 두 개의 기존 자기지도 방법(Bepler, Alley) 및 기준선(one-hot, 정렬 특징)을 평가한다.
  • 표준화된 감독 아키텍처로 각 다운스트림 작업에서 사전 학습된 표현을 미세 조정한다.
  • 적절한 작업 지표(정확도, 정밀도, Spearman의 상관계수)로 성능을 비교하고 분포 밖 일반화(out-of-distribution 일반화)를 분석한다.

실험 결과

연구 질문

  • RQ1자기지도 사전학습이 여러 다운스트림 작업에 걸쳐 단백질 표현 품질을 향상시키는가?
  • RQ2다른 아키텍처(트랜스포머, LSTM, ResNet)가 작업 간 전이 성능에서 어떻게 차이를 보이는가?
  • RQ3정렬 기반 특징이 특정 구조 관련 작업에서 여전히 학습 표현보다 우수한가?
  • RQ4모든 작업에서 일관되게 승리하는 단일 모델이 있는가, 아니면 다중 작업 벤치마킹이 필수적인가?
  • RQ5사전 학습 vs 비사전 학습이 분포 밖 일반화(보류된 가족)에 미치는 영향은 무엇인가?

주요 결과

MethodSSContactHomologyFluorescenceStability
Transformer No Pretrain0.700.320.090.22-0.06
LSTM No Pretrain0.710.190.120.210.28
ResNet No Pretrain0.700.200.10-0.280.61
Transformer Pretrain0.730.360.210.680.73
LSTM Pretrain0.750.390.260.670.69
ResNet Pretrain0.750.290.170.210.73
Supervised Bepler LSTM0.730.400.170.330.64
UniRep mLSTM0.730.340.230.670.73
Baseline One-hot0.690.290.090.140.19
Alignment0.800.640.09N/AN/A
  • 자기지도 사전학습으로 거의 모든 모델이 거의 모든 작업에서 성능이 향상된다.
  • 아키텍처의 성능은 작업에 따라 다르며 단일 모델이 모든 작업에서 우위를 보이지 않는다.
  • 비심층(비Deep) 정렬 기반 특징은 보조 구조 및 접촉 예측 작업에서 학습 표현보다 우수하며, 학습 표현은 원격 호몰로지 탐지에서 뛰어나다.
  • 형광 및 안정성 작업에서 사전학습 모델은 의미 있는 이득을 보이지만 일부 구조 작업에서는 여전히 정렬 기반 신호가 우세할 수 있다.
  • 다중 작업 벤치마크(TAPE와 같은)의 가치와 지속적인 아키텍처 및 학습 개선의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.