[논문 리뷰] ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing
ProLLaMA는 일반 LLM을 LoRA를 이용한 두 단계 학습 프레임워크를 통해 멀티태스크 ProLLM으로 변환한다: 단백질 언어에 대한 지속 학습과 PLP 작업을 위한 지시 학습을 통해 무조건 생성, 제어 가능한 설계 및 단백질 특성 예측을 가능하게 한다.
Recent advances in Protein Language Models (PLMs) have transformed protein engineering, yet unlike their counterparts in Natural Language Processing (NLP), current PLMs exhibit a fundamental limitation: they excel in either Protein Language Understanding (PLU) or Protein Language Generation (PLG), but rarely both. This fragmentation hinders progress in protein engineering. To bridge this gap, we introduce ProLLaMA, a multitask protein language model enhanced by the Evolutionary Protein Generation Framework (EPGF). We construct a comprehensive instruction dataset containing approximately 13 million samples with over 11,000 superfamily annotations to facilitate better modeling of sequence-function landscapes. We leverage a two-stage training approach to develop ProLLaMA, a multitask LLM with protein domain expertise. Our EPGF addresses the mismatch between statistic language modeling and biological constraints through three innovations: a multi-dimensional interpretable scorer, hierarchical efficient decoding, and a probabilistic-biophysical joint selection mechanism. Extensive experiments demonstrate that ProLLaMA excels in both unconditional and controllable protein generation tasks, achieving superior structural quality metrics compared to existing PLMs. Additionally, ProLLaMA demonstrates strong understanding capabilities with a 67.1% exact match rate in superfamily prediction. EPGF significantly enhances the biological viability of generated sequences, as evidenced by improved biophysical scores (+4.3%) and structural metrics (+14.5%). The project is available at https://github.com/PKU-YuanGroup/ProLLaMA.
연구 동기 및 목표
- 단백질 언어 처리(PLP)에서 단일 작업 단백질 생성 이상의 멀티태스크 ProLLM 필요성에 대한 동기 부여.
- 자연어 능력을 보존하면서 단백질 언어 이해를 습득하는 보편적 학습 프레임워크 개발.
- 지시 학습을 통해 생성, 제어 가능한 설계 및 특성 예측을 지원하는 멀티태스크 PLP enablement.
- 추가 PLP 작업에 대한 훈련 비용 최소화로 확장성 시연.
제안 방법
- 기저 모델로서 사전 학습된 LLaMA2를 활용하고 UniRef50에서 단백질 언어를 습득하기 위해 지속 학습을 수행하되 원래 매개변수를 고정하고 LoRA 어댑터를 훈련한다.
- LoRA 어댑터를 여러 디코더 가중치에 삽입하고 Embed 및 Generation Head 계층도 포함시켜 단백질-언어와 자연어 표현을 구별하여 보존한다.
- Stage 1: protein-language continual learning to form ProLLaMA; Stage 2: instruction-tuning on a multi-task PLP dataset to enable instruction following and multi-task PLP abilities.
- Use a two-stage objective: CLM loss for protein language and combined CLM with instructions for multi-task PLP (Equation 1 and Equation 5 in the paper).
- Adopt low-rank adapters with relatively high LoRA rank for effective protein-language learning, and lower rank during instruction tuning to reduce training cost and avoid forgetting.
- Extend ProLLaMA to new tasks by additional instruction tuning with minimal resource use due to LoRA.
실험 결과
연구 질문
- RQ1일반 LLM을 다양한 PLP 작업을 다룰 수 있는 멀티태스크 ProLLM으로 변환할 수 있는가?
- RQ2두 단계 학습(단백질 언어의 지속 학습 + 지시 학습)이 PLP 기술을 습득하면서 자연어 능력을 보존하는가?
- RQ3무조건적 단백질 생성, 제어 가능한 단백질 생성 및 단백질 특성 예측에서 ProLLaMA는 기존 ProLLMs와 비교하여 어떤 성능을 보이는가?
- RQ4저훈련 비용으로 추가 PLP 작업에 대해 프레임워크가 확장 가능한가?
주요 결과
- ProLLaMA는 무조건적 단백질 서열 생성에서 최첨단 결과를 달성한다(pLDDT, TM-score, RMSD).
- 제어 가능한 단백질 생성에서 ProLLaMA는 주어진 지시사항에 맞춘 기능을 가진 새로운 단백질을 설계한다(예: SAM-MT, Trx).
- 단백질 특성 예측에서 ProLLaMA는 평균 약 72% 정확도를 달성하며 많은 초족군에서 거의 100% 정확도에 도달한다.
- ProLLaMA는 자연어 능력을 강하게 보여주지만 약간 LLaMA2보다 낮아 단백질-언어 학습 후에도 NL 능력이 보존됨을 시사한다.
- LoRA로 인한 추가 비용이 적고 더 많은 PLP 작업으로의 확장이 용이하며, 더 긴 단백질에서도 안정적인 pLDDT 및 TM-score를 보이는 등 장기 시퀀스 생성에서도 강인성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.