QUICK REVIEW

[论文解读] ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing

Liuzhenghao Lv, Zongying Lin|arXiv (Cornell University)|Feb 26, 2024

Machine Learning in Bioinformatics被引用 12

一句话总结

ProLLaMA 将通用 LLM 转换为多任务 ProLLM，采用基于 LoRA 的两阶段训练框架：用于蛋白质语言的持续学习和用于 PLP 任务的指令微调，从而实现无条件生成、可控设计和蛋白质性质预测。

ABSTRACT

Recent advances in Protein Language Models (PLMs) have transformed protein engineering, yet unlike their counterparts in Natural Language Processing (NLP), current PLMs exhibit a fundamental limitation: they excel in either Protein Language Understanding (PLU) or Protein Language Generation (PLG), but rarely both. This fragmentation hinders progress in protein engineering. To bridge this gap, we introduce ProLLaMA, a multitask protein language model enhanced by the Evolutionary Protein Generation Framework (EPGF). We construct a comprehensive instruction dataset containing approximately 13 million samples with over 11,000 superfamily annotations to facilitate better modeling of sequence-function landscapes. We leverage a two-stage training approach to develop ProLLaMA, a multitask LLM with protein domain expertise. Our EPGF addresses the mismatch between statistic language modeling and biological constraints through three innovations: a multi-dimensional interpretable scorer, hierarchical efficient decoding, and a probabilistic-biophysical joint selection mechanism. Extensive experiments demonstrate that ProLLaMA excels in both unconditional and controllable protein generation tasks, achieving superior structural quality metrics compared to existing PLMs. Additionally, ProLLaMA demonstrates strong understanding capabilities with a 67.1% exact match rate in superfamily prediction. EPGF significantly enhances the biological viability of generated sequences, as evidenced by improved biophysical scores (+4.3%) and structural metrics (+14.5%). The project is available at https://github.com/PKU-YuanGroup/ProLLaMA.

研究动机与目标

在蛋白质语言处理（PLP）中，超越单任务蛋白质生成，提出多任务 ProLLM 的必要性。
开发一个通用的训练框架，在获得蛋白质语言理解的同时保持自然语言能力。
通过指令微调实现多任务 PLP，支持生成、可控设计和性质预测。
展示在最小训练成本下扩展到更多 PLP 任务的可扩展性。

提出的方法

以预训练的 LLaMA2 作为基础模型，在 UniRef50 上进行持续学习以获取蛋白质语言，同时冻结原参数并训练 LoRA 适配器。
在多个解码器权重中插入 LoRA 适配器，并同时包含 Embed 和 Generation Head 层，以保留蛋白质语言和自然语言的不同表示。
阶段1：蛋白质语言持续学习以形成 ProLLaMA；阶段2：在多任务 PLP 数据集上进行指令微调，以实现指令遵循和多任务 PLP 能力。
使用两阶段目标：蛋白质语言的 CLM 损失以及带指令的 CLM 与多任务 PLP 的结合损失（论文中的方程1和方程5）。
采用低秩适配器，较高的 LoRA 秩以实现有效的蛋白质语言学习，在指令微调阶段使用较低的秩以降低训练成本并避免遗忘。
通过额外的指令微调，在资源使用极小的情况下将 ProLLaMA 扩展到新任务，因为 LoRA 的存在。

实验结果

研究问题

RQ1能否将通用 LLM 转换为能够处理多样化 PLP 任务的多任务 ProLLM？
RQ2两阶段训练（持续蛋白质语言学习+指令微调）在获得 PLP 技能的同时，是否能保持自然语言能力？
RQ3相较于现有的 ProLLMs，ProLLaMA 在无条件蛋白质生成、可控蛋白质生成和蛋白质性质预测方面的表现如何？
RQ4该框架在较低训练开销下，是否可扩展到更多的 PLP 任务？

主要发现

ProLLaMA 在无条件蛋白质序列生成（pLDDT、TM-score、RMSD）方面取得了最先进的结果。
在可控蛋白质生成中，ProLLaMA 设计出与给定指令相匹配的功能性新蛋白（例如 SAM-MT、Trx）。
在蛋白质性质预测中，ProLLaMA 平均达到约 72% 的准确率，在许多超家族中接近 100% 的准确率。
ProLLaMA 展示出较强的自然语言能力，尽管略低于 LLaMA2，表明在蛋白质语言学习后保留了自然语言能力。
由于 LoRA，框架使扩展到更多 PLP 任务的额外成本较低，并且在较长蛋白质序列的生成方面表现出稳健性（较长蛋白的 pLDDT 和 TM-score 稳定）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。