QUICK REVIEW

[論文レビュー] Structure-informed Language Models Are Protein Designers

Zaixiang Zheng, Yifan Deng|arXiv (Cornell University)|Feb 3, 2023

Machine Learning in Bioinformatics被引用数 9

ひとこと要約

LM-Designは、軽量な構造アダプターを挿入することによりタンパク質言語モデルを再利用し、特定のフォールドの配列設計を行い、CATHベンチマークでの回復率を最先端に押し上げ、抗体およびde novoタンパク質へのゼロショット一般化も強力に達成します。

ABSTRACT

This paper demonstrates that language models are strong structure-based protein designers. We present LM-Design, a generic approach to reprogramming sequence-based protein language models (pLMs), that have learned massive sequential evolutionary knowledge from the universe of natural protein sequences, to acquire an immediate capability to design preferable protein sequences for given folds. We conduct a structural surgery on pLMs, where a lightweight structural adapter is implanted into pLMs and endows it with structural awareness. During inference, iterative refinement is performed to effectively optimize the generated protein sequences. Experiments show that LM-Design improves the state-of-the-art results by a large margin, leading to up to 4% to 12% accuracy gains in sequence recovery (e.g., 55.65%/56.63% on CATH 4.2/4.3 single-chain benchmarks, and >60% when designing protein complexes). We provide extensive and in-depth analyses, which verify that LM-Design can (1) indeed leverage both structural and sequential knowledge to accurately handle structurally non-deterministic regions, (2) benefit from scaling data and model size, and (3) generalize to other proteins (e.g., antibodies and de novo proteins)

研究の動機と目的

データ不足と非決定的領域に対処しつつ、構造ベースのタンパク質設計のために大規模な事前学習済みタンパク質言語モデル（pLM）を活用する方法を動機づけ、開発する。
pLMに軽量な構造アダプターを挿入して構造認識を可能にする、モジュラーなフレームワーク LM-Design を導入する。
追加の訓練データなしで、LM-Designが単鎖・多鎖タンパク質の配列回復を向上させることを実証する。
データ・モデルのスケーリングからの恩恵と、未知のタンパク質ファミリー（抗体、de novoタンパク質）への一般化を LM-Design がどう享受するかを分析する。

提案手法

事前学習済みタンパク質言語モデル（例: ESM-1b）に軽量な構造アダプターを挿入し、外部の構造エンコーダー（例: ProteinMPNN）へアクセスする。
バックボーン構造 X が与えられたときのデノイジングと条件付き配列生成を可能にする条件付きマスク言語モデリング目的（CMLM）で訓練する。
推論時には、デコーダを T ステップ回収して反復的な改良を行い、粗い段階から細かい段階への配列最適化を可能にする。
設計の精度と多様性のバランスを取るため、温度制御サンプリング方式を用いる。
予測された構造（例: AlphaFold2）を組み込むことでデータ拡張を活用し、性能をさらに高める。
さまざまな pLMs および構造エンコーダと互換性のある、モデル非依存かつモジュラーな設計であることを示す。

実験結果

リサーチクエスチョン

RQ1構造アダプターを組み込んだ事前学習済みのタンパク質言語モデルは、ターゲットのバックボーンに折り畳むような配列を効果的に設計できるか？
RQ2単鎖および多鎖タンパク質に対する LM-Design の性能は、純粋な構造ベース設計法と比較してどうか？
RQ3反復的な改良とサンプリング温度が設計の精度と多様性に与える影響は何か？
RQ4LM-Design は抗体や de novo タンパク質のような見たことのないタンパク質カテゴリーへ一般化するか？
RQ5データ拡張とモデルスケーリングが設計性能に与える影響はどのようなものか？

主な発見

LM-Design は CATH 4.2 および 4.3 の単鎖ベンチマークで 55.65% と 56.63% の配列回復率を達成し、タンパク質複合体では >60% を超える。
LM-Design は追加の訓練データなしで ProteinMPNN+CMLM および PiFold のベースラインに比べて著しい改善を提供する。
反復的改良は一貫した精度の向上をもたらし、数回のラウンド後に収穫逓減が見られる。
LM-Design はより大きな pLM（ESM-2 の最大 3B パラメータ）および事前訓練済み構造エンコーダとともにスケールし、明確なスケーリング則に従う。
ゼロショット評価は抗体および de novo タンパク質への強い一般化を示し、TS50/TS500 データセットで競合他手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。