Skip to main content
QUICK REVIEW

[论文解读] BERTology Meets Biology: Interpreting Attention in Protein Language Models

Jesse Vig, Ali Madani|arXiv (Cornell University)|Jun 26, 2020
Machine Learning in Bioinformatics被引用 24
一句话总结

本文引入可解释性方法以分析蛋白质语言模型中的注意力机制,表明注意力机制在不同层中捕捉到了关键的生物学特征,如三维蛋白质结构、功能结合位点以及生化性质。在两个数据集上的 BERT、ALBERT 和 XLNet 模型中,注意力与接触图(p < 0.00001)、结合位点以及翻译后修饰显著对齐,揭示了自监督预训练使注意力机制能够学习到有意义的生物学推理。

ABSTRACT

Transformer architectures have proven to learn useful representations for protein classification and generation tasks. However, these representations present challenges in interpretability. In this work, we demonstrate a set of methods for analyzing protein Transformer models through the lens of attention. We show that attention: (1) captures the folding structure of proteins, connecting amino acids that are far apart in the underlying sequence, but spatially close in the three-dimensional structure, (2) targets binding sites, a key functional component of proteins, and (3) focuses on progressively more complex biophysical properties with increasing layer depth. We find this behavior to be consistent across three Transformer architectures (BERT, ALBERT, XLNet) and two distinct protein datasets. We also present a three-dimensional visualization of the interaction between attention and protein structure. Code for visualization and analysis is available at https://github.com/salesforce/provis.

研究动机与目标

  • 解释蛋白质特异性 Transformer 模型(如 BERT、ALBERT、XLNet)中的注意力机制,以理解其如何编码生物学知识。
  • 研究这些模型中的注意力是否捕捉到蛋白质的结构和功能特征,如三维空间邻近性与结合位点。
  • 将基于注意力的可解释性与隐藏状态表征进行比较,并评估其在多种架构和数据集上的一致性。
  • 通过将模型注意力与已知的生物学特征(如接触图、替换矩阵和翻译后修饰)关联,促进科学发现。
  • 提供开源工具,用于在三维蛋白质结构上可视化注意力,以支持生物学洞察。

提出的方法

  • 作者分析了预训练蛋白质 Transformer(TapeBert、ProtBERT、ProtALBERT、ProtXLNet)在多个层和头中的注意力权重。
  • 通过量化注意力与真实生物学注释的一致性来评估其性能:接触图(空间邻近性)、结合位点、翻译后修饰(PTMs)以及氨基酸频率。
  • 使用 95% 置信区间和经过 Bonferroni 校正的假设检验来评估统计显著性,与背景频率进行比较。
  • 利用 NGL Viewer 开发了三维可视化工具,将注意力权重叠加在蛋白质结构上,实现空间上的可解释性。
  • 使用零模型(随机化注意力头)建立基线,确认观察到的注意力模式并非偶然所致。
  • 将注意力模式与 BLOSUM 替换矩阵进行比较,以评估氨基酸偏好上的相似性。

实验结果

研究问题

  • RQ1蛋白质语言模型中的注意力头是否与三维蛋白质结构中的空间邻近性对齐,如通过接触图所衡量?
  • RQ2是否存在特定的注意力头会靶向已知的功能区域,如 HIV-1 蛋白酶等酶的结合位点?
  • RQ3随着网络深度的增加,注意力是否逐步编码更高阶的生物物理或功能特性?
  • RQ4注意力分布与已知的生物学先验(如 BLOSUM 替换矩阵)相比如何?
  • RQ5注意力模式在不同 Transformer 架构(BERT、ALBERT、XLNet)和蛋白质数据集之间是否具有一致性?

主要发现

  • 蛋白质 Transformer 中的注意力头与三维接触图显著对齐(p < 0.00001),其中表现最佳的头聚焦于序列上相距较远但在三维空间中接近的氨基酸对。
  • 特定注意力头会靶向已知的功能结合位点——例如,ProtXLNet 中的第 7-1 号头聚焦于 HIV-1 蛋白酶中的第 27 位甘氨酸残基,该位点是已知的药物结合位点。
  • 注意力模式与 BLOSUM 替换矩阵高度相关,表明注意力机制学习到了具有生物学意义的氨基酸关系。
  • 关注翻译后修饰(PTM)的注意力比例显著高于背景频率(p < 0.00001),部分头对 PTM 位点的关注率超过 70%。
  • 氨基酸特异性注意力分布极不均匀:例如,某些头中甘氨酸和脯氨酸分别接收高达 98.3% 和 98.1% 的注意力,远超其背景频率。
  • 在标准模型中,表现最佳的注意力头始终显著优于其随机化对应版本(例如,TapeBert 中丙氨酸的注意力比例为 25.5% vs. 12.1%),证实了注意力机制具有非随机且具有生物学意义的特性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。