[論文レビュー] Endowing Protein Language Models with Structural Knowledge
PST は、構造抽出器を各自己注意ブロックに組み込むことで、事前学習済みのタンパク質言語モデル(ESM-2)を強化し、構造認識表現を実現します。これにより、パラメータ効率を改善しつつ、タンパク質の機能と構造予測を向上させます。
Understanding the relationships between protein sequence, structure and function is a long-standing biological challenge with manifold implications from drug design to our understanding of evolution. Recently, protein language models have emerged as the preferred method for this challenge, thanks to their ability to harness large sequence databases. Yet, their reliance on expansive sequence data and parameter sets limits their flexibility and practicality in real-world scenarios. Concurrently, the recent surge in computationally predicted protein structures unlocks new opportunities in protein representation learning. While promising, the computational burden carried by such complex data still hinders widely-adopted practical applications. To address these limitations, we introduce a novel framework that enhances protein language models by integrating protein structural data. Drawing from recent advances in graph transformers, our approach refines the self-attention mechanisms of pretrained language transformers by integrating structural information with structure extractor modules. This refined model, termed Protein Structure Transformer (PST), is further pretrained on a small protein structure database, using the same masked language modeling objective as traditional protein language models. Empirical evaluations of PST demonstrate its superior parameter efficiency relative to protein language models, despite being pretrained on a dataset comprising only 542K structures. Notably, PST consistently outperforms the state-of-the-art foundation model for protein sequences, ESM-2, setting a new benchmark in protein function prediction. Our findings underscore the potential of integrating structural information into protein language models, paving the way for more effective and efficient protein modeling Code and pretrained models are available at https://github.com/BorgwardtLab/PST.
研究の動機と目的
- トランスフォーマーベースのPLMへ構造情報を注入することで、タンパク質モデリングにおける配列と構造を橋渡しする。
- パラメータ要件を削減しつつ、タンパク質機能と構造予測の精度を向上させる。
- 重いタスク特化のファインチューニングを伴わず、構造認識表現の多様な下流タスクへの適用性を示す。
- 構造抽出器のみを微調整することで大きな利得を得られること、部分的な事前学習戦略が性能を維持または向上させ得ることを示す。
提案手法
- 残基をノード、8Å以内の近接をエッジとするグラフとしてタンパク質を表現する。
- 事前学習済みのESM-2ボディーの各自己注意ブロックに構造抽出器(例: 2-layer GIN)を組み込む。
- 抽出器が生成する構造認識埋め込みを用いてQ, K, Vを修正する(Eq. 5)。
- AlphaFoldDB SwissProtサブセット上で、ESM-2と同じMLM目的でPSTモデルを事前学習する。
- 事前学習中は、構造抽出器のパラメータのみ、あるいは全モデルを更新することができる。
- 固定表現(MLP/線形ヘッド)でタスク横断的にPSTを評価し、タスク特異的なファインチューニングなしに評価する。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマー自己注意に構造情報を統合することは、 backbone PLM を超えるタンパク質機能と構造予測の改善につながるか。
- RQ2モデルサイズ全体でのパラメータ効率と性能に対する構造抽出器の影響はどうなるか。
- RQ3PST は GO および EC 機能予測、折りたたみ分類、ProteinShake タスクで、最先端のシーケンスおよび構造モデルと比べてどうか。
- RQ4事前学習中に構造抽出器のみを更新するだけで競争力のある表現を得られるか、推論時に構造表現とシーケンス表現を組み合わせると結果が向上するか。
主な発見
- PST は機能予測タスク(例えば酵素および遺伝子オントロジー分類)で最先端の性能を達成。
- PST の表現は、固定表現でもタスク全体で堅牢であり、タスク特異的ファインチューニングの必要性を低減。
- PST は常に ESM-2 を上回り、特に小さな ESM-2 ボトブックでより大きな利得を示し、パラメータ効率の利点を強調。
- 全体の PST の事前学習が最良の結果を生むが、構造抽出器のみを更新する方法でも高い効率で同等の性能を提供。
- より微妙な構造情報の組み込みは事前学習の精度を向上させるが、下流タスクの性能を低下させる可能性があるため、より高度な目的関数の必要性を示唆。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。