Skip to main content
QUICK REVIEW

[論文レビュー] OntoProtein: Protein Pretraining With Gene Ontology Embedding

Ningyu Zhang, Zhen Bi|arXiv (Cornell University)|Jan 23, 2022
Machine Learning in Bioinformatics被引用数 49
ひとこと要約

OntoProtein は Gene Ontology の知識をタンパク質の事前学習に統合し、タンパク質 MLM 目的と知識埋め込みを共同最適化することで、ProteinKG25 知識グラフを用いてタンパク質機能予測、PPI、そして TAPE タスクを改善する。

ABSTRACT

Self-supervised protein language models have proved their effectiveness in learning the proteins representations. With the increasing computational power, current protein language models pre-trained with millions of diverse sequences can advance the parameter scale from million-level to billion-level and achieve remarkable improvement. However, those prevailing approaches rarely consider incorporating knowledge graphs (KGs), which can provide rich structured knowledge facts for better protein representations. We argue that informative biology knowledge in KGs can enhance protein representation with external knowledge. In this work, we propose OntoProtein, the first general framework that makes use of structure in GO (Gene Ontology) into protein pre-training models. We construct a novel large-scale knowledge graph that consists of GO and its related proteins, and gene annotation texts or protein sequences describe all nodes in the graph. We propose novel contrastive learning with knowledge-aware negative sampling to jointly optimize the knowledge graph and protein embedding during pre-training. Experimental results show that OntoProtein can surpass state-of-the-art methods with pre-trained protein language models in TAPE benchmark and yield better performance compared with baselines in protein-protein interaction and protein function prediction. Code and datasets are available in https://github.com/zjunlp/OntoProtein.

研究の動機と目的

  • Gene Ontology からの外部生物学知識をタンパク質の事前学習に取り込み、タンパク質表現を豊かにする。
  • タンパク質配列モデリングと知識グラフ埋め込みを共同最適化するフレームワークを開発する。
  • ProteinKG25 を作成・公開する。これはタンパク質配列と GO 記述に整合した大規模 KG で、事前学習用に設計されている。
  • 下流のタンパク質タスク(機能予測、PPI、TAPE ベンチマークなど)で改善を示す。

提案手法

  • ハイブリッドエンコーダを使用:タンパク質には ProtBert、GO 記述には PubMedBERT ベースを用い、GO 関係には追加のリレーションエンコーダを適用する。
  • マスキングされたタンパク質モデリング(MLM)を用いてマスクされたアミノ酸を予測し、 ProtBert から初期化する。
  • KG をエンティティ(タンパク質と GO 用語)と関係で表現し、TransE スタイルのスコア関数 d(h,t)=||h+r−t|| を用いた知識埋め込み目的(KE)を適用する。
  • 知識情報を考慮したネガティブサンプリングを導入し、KE のハードネガティブを構築する。GO-GO ネガティブは同じ GO の側面内でリーフを置換することで、Protein-GO ネガティブはタンパク質をホモログで置換することで作成する(将来の課題)。
  • 共同最適化する KE と MLM の重み付き目的関数: ell = alpha * ell_KE + ell_MLM。

実験結果

リサーチクエスチョン

  • RQ1 GO ベースの知識グラフをタンパク質の事前学習に組み込むことで、標準的な PLM を超える下流のタンパク質理解タスクの性能改善が見られるか。
  • RQ2 GO 関係と知識を考慮した知識埋め込みは、タンパク質の事前学習において MLM に対して補完的なシグナルを提供できるか。
  • RQ3 OntoProtein は transductive および inductive 設定の下で TAPE、PPI、タンパク質機能予測においてどのような性能を示すか。

主な発見

MethodSS-Q3SS-Q8ContactHomologyFluoresceneStabilityStructureEvolutionaryEngineeringPPI (SHS27k BFS)PPI (SHS27k DFS)PPI (SHS148k BFS)PPI (SHS148k DFS)PPI (STRING BFS)PPI (STRING DFS)Transductive (BPO)Transductive (MFO)Transductive (CCO)Inductive (BPO)Inductive (MFO)Inductive (CCO)
LSTM0.750.590.260.260.670.690.75SS-Q3SS-Q8ContactHomologyFluoresceneStability
TAPE Transformer0.730.590.250.210.680.730.??MSA Transformer-----ProtBert0.810.670.350.290.610.82OntoProtein0.820.680.400.240.660.75
  • OntoProtein は TAPE タスクで ProtBert や TAPE Transformer などのいくつかのベースラインよりもトークンレベルの性能が高い。
  • タンパク質-タンパク質相互作用予測において、OntoProtein はいくつかのベースラインを上回り、特に小規模データセットで GNN-PPI 手法と競合する。
  • タンパク質機能予測では、Transductive 設定(特に BPO で顕著)において改善を示し、他の GO 側面で競争力のある結果を維持しているが、尾部の制約については議論されている。
  • OntoProtein はモデルアーキテクチャを変更せず、訓練目的と知識の組み込みを追加するだけで競争力のある結果を提供する。
  • 著者らは ProteinKG25 を公開する。GO 用語とタンパク質配列に整合したエンティティ 612,483、三重項 4,990,097 の大規模 KG。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。