Skip to main content
QUICK REVIEW

[論文レビュー] ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing

Liuzhenghao Lv, Zongying Lin|arXiv (Cornell University)|Feb 26, 2024
Machine Learning in Bioinformatics被引用数 12
ひとこと要約

ProLLaMA は、LoRA を用いた2段階の訓練フレームワークを通じて、一般的な LLM をマルチタスク ProLLM に変換する:連続学習による蛋白質言語学習と PLP タスクの指示チューニングを行い、無条件生成、制御設計、および蛋白質特性予測を可能にする。

ABSTRACT

Recent advances in Protein Language Models (PLMs) have transformed protein engineering, yet unlike their counterparts in Natural Language Processing (NLP), current PLMs exhibit a fundamental limitation: they excel in either Protein Language Understanding (PLU) or Protein Language Generation (PLG), but rarely both. This fragmentation hinders progress in protein engineering. To bridge this gap, we introduce ProLLaMA, a multitask protein language model enhanced by the Evolutionary Protein Generation Framework (EPGF). We construct a comprehensive instruction dataset containing approximately 13 million samples with over 11,000 superfamily annotations to facilitate better modeling of sequence-function landscapes. We leverage a two-stage training approach to develop ProLLaMA, a multitask LLM with protein domain expertise. Our EPGF addresses the mismatch between statistic language modeling and biological constraints through three innovations: a multi-dimensional interpretable scorer, hierarchical efficient decoding, and a probabilistic-biophysical joint selection mechanism. Extensive experiments demonstrate that ProLLaMA excels in both unconditional and controllable protein generation tasks, achieving superior structural quality metrics compared to existing PLMs. Additionally, ProLLaMA demonstrates strong understanding capabilities with a 67.1% exact match rate in superfamily prediction. EPGF significantly enhances the biological viability of generated sequences, as evidenced by improved biophysical scores (+4.3%) and structural metrics (+14.5%). The project is available at https://github.com/PKU-YuanGroup/ProLLaMA.

研究の動機と目的

  • 単一タスクのタンパク質生成を超えた、タンパク質言語処理(PLP)におけるマルチタスク ProLLMs の必要性を動機づける。
  • 自然言語能力を維持しつつ蛋白質言語の理解を獲得する普遍的な訓練フレームワークを開発する。
  • 生成、制御可能な設計、および特性予測をサポートするために、指示チューニングを通じてマルチタスクPLPを実現する。
  • 最小限の訓練コストで追加のPLPタスクへスケーリング可能であることを示す。

提案手法

  • 事前学習済みの LLaMA2 をベースモデルとして活用し、元のパラメータを凍結したまま UniRef50 で蛋白質言語を獲得する継続学習を実施し、LoRA アダプタを訓練する。
  • 複数のデコーダ重みへ LoRA アダプタを挿入し、Embed と Generation Head 層の両方を含めて、蛋白質言語と自然言語の表現をそれぞれ保持する。
  • ステージ1: ProLLaMAを形成するための蛋白質言語継続学習; ステージ2: 指示追従とマルチタスクPLP能力を有効にするためのマルチタスクPLPデータセット上での指示チューニング。
  • 2段階の目的関数を用いる: 蛋白質言語のCLM損失と、マルチタスクPLPのための指示付きCLMの組み合わせ(論文の式1および式5)。
  • 蛋白質言語学習の効果を高めるために比較的高いLoRAランクで低ランクのアダプタを採用し、指示チューニング時には訓練コスト削減と忘却抑制のために低いランクにする。
  • LoRA による最小限のリソース使用で追加の指示チューニングを通じて新しいタスクへ ProLLaMA を拡張する。

実験結果

リサーチクエスチョン

  • RQ1一般的な LLM を、さまざまな PLP タスクを処理できるマルチタスク ProLLMへ変換できるか?
  • RQ22段階の訓練(継続的な蛋白質言語学習+指示チューニング)が、PLPスキルを獲得しつつ自然言語能力を保持するか?
  • RQ3既存の ProLLMs と比較して、無条件蛋白質生成、制御可能な蛋白質生成、および蛋白質特性予測における ProLLaMA の性能はどうか?
  • RQ4低い訓練オーバーヘッドで追加の PLP タスクへフレームワークはスケール可能か?

主な発見

  • ProLLaMA は無条件蛋白質配列生成において最先端の結果を達成する(pLDDT、TMスコア、RMSD)。
  • 制御可能な蛋白質生成では、ProLLaMA が与えられた指示に一致する機能を持つ新規タンパク質を設計する(例: SAM-MT, Trx)。
  • 蛋白質特性予測では、ProLLaMA が平均約72%の正確性を達成し、多くのスーパー家族でほぼ100%の正確性を示す。
  • ProLLaMA は強力な自然言語能力を示すが、LLaMA2にはわずかに劣る程度であり、蛋白質言語学習後のNL能力が維持されていることを示す。
  • LoRA による追加コストの低さでさらに多くの PLP タスクへの拡張を容易にし、長いタンパク質でも安定した pLDDT および TMスコアを示す堅牢な長序列生成を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。