QUICK REVIEW

[論文レビュー] BERTology Meets Biology: Interpreting Attention in Protein Language Models

Jesse Vig, Ali Madani|arXiv (Cornell University)|Jun 26, 2020

Machine Learning in Bioinformatics被引用数 24

ひとこと要約

本稿では、タンパク質言語モデルにおける注目メカニズムを解釈する手法を導入し、アテンションが層を通過する中で三次元タンパク質構造、機能的結合部位、および物理学的性質といった重要な生物学的特徴を捉えていることを実証した。2つのデータセットにおけるBERT、ALBERT、XLNetモデルにおいて、アテンションは接触マップ（p < 0.00001）、結合部位、翻訳後修飾（PTM）と顕著に一致しており、自己教師付き事前学習から意味のある生物学的推論を学習していることが明らかになった。

ABSTRACT

Transformer architectures have proven to learn useful representations for protein classification and generation tasks. However, these representations present challenges in interpretability. In this work, we demonstrate a set of methods for analyzing protein Transformer models through the lens of attention. We show that attention: (1) captures the folding structure of proteins, connecting amino acids that are far apart in the underlying sequence, but spatially close in the three-dimensional structure, (2) targets binding sites, a key functional component of proteins, and (3) focuses on progressively more complex biophysical properties with increasing layer depth. We find this behavior to be consistent across three Transformer architectures (BERT, ALBERT, XLNet) and two distinct protein datasets. We also present a three-dimensional visualization of the interaction between attention and protein structure. Code for visualization and analysis is available at https://github.com/salesforce/provis.

研究の動機と目的

タンパク質特化型のトランスフォーマー・モデル（例：BERT、ALBERT、XLNet）における注目メカニズムを解釈し、生物学的知識がどのようにエンコードされているかを理解すること。
これらのモデルにおける注目が、三次元空間的近接性や結合部位といったタンパク質の構造的・機能的特徴を捉えているかどうかを調査すること。
隠れ状態表現との比較を通じて、注目に基づく解釈可能性の妥当性を評価し、複数のアーキテクチャおよびデータセットにわたる一貫性を検証すること。
接触マップ、置換行列、翻訳後修飾（PTM）といった既知の生物学的特徴とモデルの注目を結びつけることで、科学的発見を促進すること。
生物学的インサイトを支援するため、3次元タンパク質構造に注目重みを重ね合わせる可視化ツールを公開すること。

提案手法

著者らは、事前学習済みタンパク質トランスフォーマー（TapeBert、ProtBERT、ProtALBERT、ProtXLNet）の複数の層およびヘッドにおける注目重みを分析した。
接触マップ（空間的近接性）、結合部位、翻訳後修飾（PTM）、アミノ酸頻度といった、真の生物学的アノテーションとの注目一致を定量的に評価した。
95%信頼区間およびボンフェローニ補正を施した仮説検定を用いて、背景頻度との有意差を評価した。
NGL Viewerを用いて3次元可視化ツールを開発し、タンパク質構造上に注目重みを重ね合わせることで空間的解釈を可能にした。
ランダム化された注目ヘッドを用いたノイズモデルを導入し、観察された注目パターンが偶然によるものでないことを確認した。
アミノ酸の好みの類似性を評価するため、注目パターンとBLOSUM置換行列の類似性を比較した。

実験結果

リサーチクエスチョン

RQ1タンパク質言語モデルの注目ヘッドは、接触マップで測定される三次元タンパク質構造における空間的近接性と一致するか？
RQ2特定の注目ヘッドは、HIV-1プロテアーゼのような酵素における既知の機能的領域（例：結合部位）を標的にするか？
RQ3ネットワークの層が深くなるに従い、注目はより高次の物理学的または機能的性質を段階的にエンコードするか？
RQ4注目分布は、BLOSUM置換行列のような既知の生物学的事前知識とどのように比較できるか？
RQ5異なるトランスフォーマー・アーキテクチャ（BERT、ALBERT、XLNet）およびタンパク質データセットにおいて、注目パターンは一貫性を示すか？

主な発見

タンパク質トランスフォーマーの注目ヘッドは、三次元接触マップと顕著に一致する（p < 0.00001）。特に、配列上では遠く離れているが三次元的に近接するアミノ酸対に注目が集中している。
特定の注目ヘッドは、既知の機能的結合部位を標的にしている。例えば、ProtXLNetのヘッド7-1は、HIV-1プロテアーゼの27Gリジドに注目しており、これは既知の薬剤結合部位である。
注目パターンはBLOSUM置換行列と強く相関しており、注目が生物学的に意味のあるアミノ酸関係を学習していることが示された。
翻訳後修飾（PTM）に注目が向けられる割合は、背景頻度よりも顕著に高い（p < 0.00001）。一部のヘッドでは、PTM部位への注目率が70%を超える。
アミノ酸ごとの注目は顕著に非一様である。例えば、グリシンとプロリンは、特定のヘッドでそれぞれ最大98.3%および98.1%の注目を受けており、背景頻度を大幅に上回っている。
標準モデルの上位注目ヘッドは、ランダム化された対照群を常に上回る（例：TapeBertにおけるアラニンでは25.5% vs. 12.1%）。これは、ランダムでない生物学的に意味のある注目であることを確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。