QUICK REVIEW

[論文レビュー] Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling

Ahmed Elnaggar, Hazem Essam|arXiv (Cornell University)|Jan 16, 2023

Machine Learning in Bioinformatics被引用数 27

ひとこと要約

tldr: Ankh は言語モデルのタンパク質特化最適化を提案し、前処理データ、推論サイズ、埋め込み次元を大幅に小さくしつつ、タンパク質ベンチマークで最先端を上回りつつ、汎用的なモデリングを達成します。

ABSTRACT

As opposed to scaling-up protein language models (PLMs), we seek improving performance via protein-specific optimization. Although the proportionality between the language model size and the richness of its learned representations is validated, we prioritize accessibility and pursue a path of data-efficient, cost-reduced, and knowledge-guided optimization. Through over twenty experiments ranging from masking, architecture, and pre-training data, we derive insights from protein-specific experimentation into building a model that interprets the language of life, optimally. We present Ankh, the first general-purpose PLM trained on Google's TPU-v4 surpassing the state-of-the-art performance with fewer parameters (<10% for pre-training, <7% for inference, and <30% for the embedding dimension). We provide a representative range of structure and function benchmarks where Ankh excels. We further provide a protein variant generation analysis on High-N and One-N input data scales where Ankh succeeds in learning protein evolutionary conservation-mutation trends and introducing functional diversity while retaining key structural-functional characteristics. We dedicate our work to promoting accessibility to research innovation via attainable resources.

研究の動機と目的

タンパク質言語モデルの性能を、モデルサイズを拡大することではなく、データ効率、コスト削減、知識 Guided 最適化を通じて改善する。
マスキング、アーキテクチャ、および事前学習データの選択が、汎用モデリングのタンパク質特化の洞察を導くかを調査する。
より小さく最適化されたモデルが、多様な構造・機能ベンチマークで最先端を上回ることを示す。
High-N および One-N データスケール下でのタンパク質変異体生成を分析し、進化的保存-変異トレンドと機能的多様性を学習する。
アクセス性を促進するため、達成可能なリソースと研究革新へのオープンな道筋を提供する。

提案手法

マスキング、アーキテクチャ、および事前学習データにまたがる20を超えるタンパク質特化設計の選択肢を試す。
Google の TPU-v4 ハードウェア上で汎用 PLM の Ankh を訓練する。
構造・機能ベンチマークの代表的なセットを用いて、最先端の PLM と比較する。
High-N および One-N 入力データスケール下でのタンパク質変異体生成を評価し、保存性、変異トレンド、および機能的多様性を評価する。
より少ないパラメータと埋め込み次元の削減が性能とアクセス性に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1より大規模なモデルへ拡張せずとも、タンパク質特化最適化が一般目的の PLM 性能を他モデルと同等か上回ることができるか？
RQ2タンパク質言語理解と下流タスクを最も改善するマスキング、アーキテクチャ、およびデータ選択は何か？
RQ3Ankh は prior state-of-the-art PLMs と比較して構造/機能ベンチマークでどう評価されるか？
RQ4Ankh は進化的保存-変異トレンドを学習し、データ制約下で機能的多様性をサポートするか？
RQ5効果的なタンパク質特化 PLMs のリソースへの影響（事前学習データ、推論、埋め込みサイズ）はどの程度か？

主な発見

Ankh は、より少ないパラメータと大幅に削減されたリソースで最先端の性能を上回る。
事前学習にはパラメータの <10%、推論には <7%、埋め込み次元は標準ベースラインの <30% を使用。
Ankh は、構造と機能の代表的な範囲のベンチマークで強い性能を示す。
High-N および One-N データスケール下で、Ankh は進化的保存-変異トレンドを学習し、機能的多様性を導入しつつ、重要な構造-機能特性を保持する。
本研究は、データ効率の高い最適化と達成可能なリソースを優先することでアクセス性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。