Skip to main content
QUICK REVIEW

[论文解读] Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling

Ahmed Elnaggar, Hazem Essam|arXiv (Cornell University)|Jan 16, 2023
Machine Learning in Bioinformatics被引用 27
一句话总结

Ankh 提出针对语言模型的蛋白质特定优化,在显著减少预训练数据、推断规模和嵌入维度的同时实现对蛋白质基准的超越并具备通用建模能力。

ABSTRACT

As opposed to scaling-up protein language models (PLMs), we seek improving performance via protein-specific optimization. Although the proportionality between the language model size and the richness of its learned representations is validated, we prioritize accessibility and pursue a path of data-efficient, cost-reduced, and knowledge-guided optimization. Through over twenty experiments ranging from masking, architecture, and pre-training data, we derive insights from protein-specific experimentation into building a model that interprets the language of life, optimally. We present Ankh, the first general-purpose PLM trained on Google's TPU-v4 surpassing the state-of-the-art performance with fewer parameters (<10% for pre-training, <7% for inference, and <30% for the embedding dimension). We provide a representative range of structure and function benchmarks where Ankh excels. We further provide a protein variant generation analysis on High-N and One-N input data scales where Ankh succeeds in learning protein evolutionary conservation-mutation trends and introducing functional diversity while retaining key structural-functional characteristics. We dedicate our work to promoting accessibility to research innovation via attainable resources.

研究动机与目标

  • 通过数据高效、成本降低、以及知识引导的优化来提升蛋白质语言模型的性能,而不是扩大模型规模。
  • 研究掩码、架构和预训练数据选择的影响,以为通用建模提取蛋白质特定的洞见。
  • 证明一个更小、经过优化的模型在多样的结构与功能基准测试中能超越现有最先进水平。
  • 在 High-N 与 One-N 数据规模下分析蛋白质变体生成,以学习进化保守性-突变趋势和功能多样性。
  • 通过提供可获得的资源和开放的研究创新路径,促进可及性。

提出的方法

  • 尝试超过二十种蛋白质特定设计选择,覆盖掩码、架构和预训练数据。
  • 在 Google's TPU-v4 硬件上训练 Ankh,一个通用型 PLM。
  • 使用具有代表性的结构和功能基准集,与最先进的 PLM 进行对比。
  • 在 High-N 和 One-N 输入数据规模下评估蛋白质变体生成,以评估保守性、突变趋势和功能多样性。
  • 分析更少的参数和更小的嵌入维度如何影响性能与可及性。

实验结果

研究问题

  • RQ1蛋白质特定优化是否能够在不扩展规模的情况下实现与更大模型相竞争甚至超越的通用型 PLM 性能?
  • RQ2哪些掩码、架构和数据选择最能提升蛋白质语言理解及下游任务?
  • RQ3与先前的最先进 PLMs 相比,Ankh 在结构/功能基准上表现如何?
  • RQ4在受限数据规模下,Ankh 是否学习到进化保守性-突变趋势并支持功能多样性?
  • RQ5有效的蛋白质特定 PLMs 的资源影响(预训练数据、推理、嵌入维度)有哪些?

主要发现

  • Ankh 以更少的参数和显著减少的资源实现了对现有最先进水平的超越。
  • 预训练所需参数不到 10%,推理使用不到 7%,嵌入维度不到基准的 30%。
  • Ankh 在具有代表性的结构和功能基准范围内显示出强劲的性能。
  • 在 High-N 与 One-N 数据规模下,Ankh 学习进化保守性-突变趋势并引入功能多样性,同时保留关键的结构-功能特征。
  • 该工作强调可及性,通过优先考虑数据高效优化和可实现资源来实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。