Skip to main content
QUICK REVIEW

[論文レビュー] Contrastive Representation Learning for 3D Protein Structures

Pedro Hermosilla, Timo Ropinski|arXiv (Cornell University)|May 31, 2022
Protein Structure and Dynamics被引用数 25
ひとこと要約

本論文は、3Dタンパク質構造の表現を事前学習するためのドメイン特化型コントラスト学習フレームワークを提案し、タンパク質の類似性、フォールド分類、機能予測、タンパク質-リガンド結合親和性タスクの性能を向上させる。事前学習モデルはしばしばスクラッチベースラインを上回り、複数のタスクで最先端または競合的な結果を達成する。

ABSTRACT

Learning from 3D protein structures has gained wide interest in protein modeling and structural bioinformatics. Unfortunately, the number of available structures is orders of magnitude lower than the training data sizes commonly used in computer vision and machine learning. Moreover, this number is reduced even further, when only annotated protein structures can be considered, making the training of existing models difficult and prone to over-fitting. To address this challenge, we introduce a new representation learning framework for 3D protein structures. Our framework uses unsupervised contrastive learning to learn meaningful representations of protein structures, making use of proteins from the Protein Data Bank. We show, how these representations can be used to solve a large variety of tasks, such as protein function prediction, protein fold classification, structural similarity prediction, and protein-ligand binding affinity prediction. Moreover, we show how fine-tuned networks, pre-trained with our algorithm, lead to significantly improved task performance, achieving new state-of-the-art results in many tasks.

研究の動機と目的

  • 限られたラベル付き3Dタンパク質構造データから学習を動機づけるため、Protein Data Bank (PDB) のラベルなし構造を活用する。
  • 同じタンパク質からのランダムなサブ構造の不変表現を生み出すコントラスト学習フレームワークを開発する。
  • 3D構造の空間情報と向き情報を捉えるタンパク質特有のグラフエンコーダを設計する。
  • 事前学習表現が構造的類似性、フォールド分類、機能予測、結合親和性などの下流タスクを改善することを示す。

提案手法

  • タンパク質を、ノードをアミノ酸のCα位置とし、局所方位フレームと複数の特徴量を持つグラフとして表現する。
  • 同じタンパク質から陽性ペアを作るためにドメイン特有のサブ構造サンプリングを用い、陰性サンプルは他のタンパク質から取る。
  • 2枝のエンコーダー(グラフエンコーダ E と MLP プロジェクター P)を適用して潜在表現 h と z を得、温度 τ を用いたコサイン類似度ベースのコントラスト損失を最適化する。
  • 局所フレーム内の相対位置、フレームの向き、最短経路距離などのエッジ特徴を計算して、空間的に意識したグラフ畳み込み操作を構築する。
  • 平行移動不変性と回転等価性を保持しつつ情報を伝搬するよう、ResNet様ブロックとグラフプーリングを備えた階層的なタンパク質エンコーダを実装する。
  • 距離ベースのゲーティングを用いた滑らかな受容野を採用し、近傍の影響を制御し、カットオフ距離 d での不連続性を回避する。

実験結果

リサーチクエスチョン

  • RQ1ラベルなしの3Dタンパク質構造に対する教師なしコントラスト学習は、多様な下流タスクに有用な表現を生み出すことができるか。
  • RQ2ドメイン認識されたサブ構造サンプリングとタンパク質特有のグラフエンコーダは、汎用グラフ手法と比較して表現品質を向上させるか。
  • RQ3事前学習表現は、タンパク質構造的類似性、フォールド分類、機能予測、結合親和性予測などのタスクへどの程度移植されるか。

主な発見

  • 事前学習表現は、複数のデータセットと指標においてタンパク質構造的類似性タスクの性能を向上させる。
  • 事前学習済みタンパク質エンコーダのファインチューニングは、いくつかのタスクで一般的に最良の結果をもたらし、スクラッチモデルを上回ることもある。一方、いくつかの類似性タスクでは、固定表現とMLPを組み合わせても強い効果を示す。
  • 学習済み表現は、フォールド分類、GO term予測、酵素反応分類、結合親和性予測など、配列類似性条件が異なる状況でも最先端または競争力のある結果を支持する。
  • 提案されたフレームワークは、従来法と比べて潜在空間でのドット積を用いたより高速な類似性計算を実現し、実行時間を大幅に削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。