[論文レビュー] Protein Representation Learning by Geometric Structure Pretraining
本論文は GearNet を紹介する。タンパク質構造で事前学習されたジオメトリリレーショナルグラフニューラルネットワークを用いて構造ベースの表現を学習し、事前学習データを大幅に抑えつつ機能およびフォールド関連タスクで多くのベースラインを上回る。AlphaFold 予測構造を活用するために、マルチビューコントラスト学習と自己予測タスクを組み合わせている。
Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein function or structure. Existing approaches usually pretrain protein language models on a large number of unlabeled amino acid sequences and then finetune the models with some labeled data in downstream tasks. Despite the effectiveness of sequence-based approaches, the power of pretraining on known protein structures, which are available in smaller numbers only, has not been explored for protein property prediction, though protein structures are known to be determinants of protein function. In this paper, we propose to pretrain protein representations according to their 3D structures. We first present a simple yet effective encoder to learn the geometric features of a protein. We pretrain the protein graph encoder by leveraging multiview contrastive learning and different self-prediction tasks. Experimental results on both function prediction and fold classification tasks show that our proposed pretraining methods outperform or are on par with the state-of-the-art sequence-based methods, while using much less pretraining data. Our implementation is available at https://github.com/DeepGraphLearning/GearNet.
研究の動機と目的
- 3D構造からタンパク質表現を学ぶことの動機付け(配列だけでなく)
- タンパク質の空間的・化学的相互作用を捉える構造ベースのエンコーダを開発する
- ラベルなし構造を活用するため、マルチビューコントラスト学習と自己予測タスクでエンコーダを事前学習する
- 構造ベースの事前学習が、より少ない事前学習サンプル数でもシーケンスベースの手法と同等以上の性能を発揮できることを示す
提案手法
- リザidue(残基)グラフをシーケンス、半径、KNNエッジで構築し、エッタイプ条件付けを伴うリレーショナルグラフ畳み込みを適用するジオメトリ認識型リレーショナルグラフニューラルネットワーク GearNet を提案する
- エッジ間の疎結合メッセージパッシングを行うエッジメッセージパッシング層(GearNet-Edge)を、ライングラフ構築と角度関係を用いて強化する
- 生物学的に意味のある部分構造(サブシーケンスとサブスペースの切り抜き)に対するマルチビューコントラスト学習を用いて表現を整合させ、cosine類似度ベースのInfoNCE損失を適用する
- 4つの自己予測前学習タスク(残基タイプ、距離、角度、二面角)を導入し、異なる残基グループレベルでのマスクされた幾何学/物理化学特性を予測する
- AlphaFold DB 構造(タンパク質全体 365K + Swiss-Prot 440K)で事前学習を行い、EC番号予測、GO用語予測、フォールド分類、反応分類などの下流タスクで微調整する
実験結果
リサーチクエスチョン
- RQ1幾何学認識型 GNN をタンパク質構造で事前学習することで、シーケンスベースの事前学習と比較して下流の機能・フォールド予測を改善する表現を得られるか?
- RQ2エッジ集約型のメッセージパッシングと構造モチーフに対するコントラスト学習は、ベースラインの構造ベースエンコーダやシーケンスベースエンコーダより有意な改善をもたらすか?
- RQ3サブシーケンスおよび空間的サブ構造の切り抜きが、マルチビューコントラスト前学習の有効性にどう影響するか?
- RQ4GearNet と IEConv 層を組み合わせた場合、機能予測タスクとフォールド分類タスクでの影響はどうなるか?
主な発見
- GearNet ベースのエンコーダは、事前学習なしでも機能予測とフォールド分類のいくつかのベースラインを上回る
- エッジメッセージパッシング(GearNet-Edge)は、EC・GO-BP・GO-MF のタスクで特に強力な改善を示し、GO-CC でも競争力を維持
- 提案手法での事前学習は性能を大幅に向上させ、しばしば現状の最先端のシーケンスベースエンコーダを、はるかに多いデータで学習したものと同等以上に超える
- マルチビューコントラスト前学習(サブシーケンスとサブスペース切り抜き)は、EC・GO・反応・フォールドの各タスクで全体的に最高の結果を達成
- 事前学習構造ベースのエンコーダは、はるか少ない前学習構造(百万未満)でもシーケンスベースモデルと同等かそれ以上の性能を発揮できる
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。