Skip to main content
QUICK REVIEW

[论文解读] Structure-Informed Protein Language Model

Zuobai Zhang, Jiarui Lu|arXiv (Cornell University)|Feb 7, 2024
Machine Learning in Bioinformatics被引用 8
一句话总结

论文通过远程同源检测将结构知识注入蛋白质语言模型,在提升功能注释任务的同时,强调在何时结构信息有助或有害预测。

ABSTRACT

Protein language models are a powerful tool for learning protein representations through pre-training on vast protein sequence datasets. However, traditional protein language models lack explicit structural supervision, despite its relevance to protein function. To address this issue, we introduce the integration of remote homology detection to distill structural information into protein language models without requiring explicit protein structures as input. We evaluate the impact of this structure-informed training on downstream protein function prediction tasks. Experimental results reveal consistent improvements in function annotation accuracy for EC number and GO term prediction. Performance on mutant datasets, however, varies based on the relationship between targeted properties and protein structures. This underscores the importance of considering this relationship when applying structure-aware training to protein function prediction tasks. Code and model weights are available at https://github.com/DeepGraphLearning/esm-s.

研究动机与目标

  • 在不输入显式结构的情况下,激发将蛋白质结构信息融入语言模型的研究动机。
  • 利用远程同源检测将结构线索浓缩到基于ESM的模型中。
  • 在功能注释和突变预测任务上评估结构信息引导模型。
  • 分析结构信息在不同任务中何时提升或降低性能。

提出的方法

  • 在远程同源检测上对 ESM-2 模型进行微调以注入结构信息,创建结构信息引导模型(后缀 -S)。
  • 在冻结的 PLM 表示上训练一个两层 MLP 头用于功能预测任务。
  • 使用基于余弦相似度的检索,结合结构信息引导的表示,通过检索器评估功能(后缀 -R 和 -RS)。
  • 在 EC 与 GO 功能预测、亚细胞定位,以及基于突变的适应性/稳定性数据集上进行评估。
  • 通过对 PLM 使用较小的学习率、对预测头使用较大学习率来保留预训练表示。

实验结果

研究问题

  • RQ1通过远程同源检测整合结构信息是否能提升下游的蛋白质功能预测?
  • RQ2与普通 PLMs 相比,结构信息引导训练对不同任务类别(EC、GO、定位、突变适应性)有何影响?
  • RQ3在检索相似蛋白质时,结构信息引导的检索器是否能改善功能注释?
  • RQ4在突变相关任务中,结构信息在何种条件下有助或有害于性能?

主要发现

  • 结构信息引导的 ESM 模型在 EC 编号和 GO 术语的功能注释方面表现稳定提升。
  • 对定位相关任务的性能提升因结构对细胞定位的影响较弱而有所不同,结构信息可能造成负面影响。
  • 使用结构信息引导表示的基于检索的注释在各任务和模型规模上均显示出一致的改进。
  • 结构信息引导的检索器在具有挑战性的 EC 注释测试集中优于基线,凸显结构相似性在功能预测中的价值。
  • 结构信息引导训练的收益取决于目标属性与蛋白质结构之间的关系。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。