[論文レビュー] End-to-End Learning on 3D Protein Structure for Interface Prediction
本論文は DIPS という大規模なタンパク質–タンパク質界面データセットと、原子座標のみを用いて対をなすタンパク質界面を予測する初のエンドツーエンド3D CNNモデル SASNet を導入し、結合複合体での訓練にもかかわらず DB5-test で最先端の結果を達成した。
Despite an explosion in the number of experimentally determined, atomically detailed structures of biomolecules, many critical tasks in structural biology remain data-limited. Whether performance in such tasks can be improved by using large repositories of tangentially related structural data remains an open question. To address this question, we focused on a central problem in biology: predicting how proteins interact with one another---that is, which surfaces of one protein bind to those of another protein. We built a training dataset, the Database of Interacting Protein Structures (DIPS), that contains biases but is two orders of magnitude larger than those used previously. We found that these biases significantly degrade the performance of existing methods on gold-standard data. Hypothesizing that assumptions baked into the hand-crafted features on which these methods depend were the source of the problem, we developed the first end-to-end learning model for protein interface prediction, the Siamese Atomic Surfacelet Network (SASNet). Using only spatial coordinates and identities of atoms, SASNet outperforms state-of-the-art methods trained on gold-standard structural data, even when trained on only 3% of our new dataset. Code and data available at https://github.com/drorlab/DIPS.
研究の動機と目的
- 大規模で間接的に関連する構造データがデータ不足の界面予測タスクを改善しうるかを動機づける。
- 界面予測器のバイアスと頑健性を検討するため、はるかに大規模な訓練データセット DIPS を作成する。
- 手作り特徴量を用いず、原子座標から直接学習するエンドツーエンドモデルを開発する。
- SASNet の性能を、ゴールドスタンダードデータで訓練された最先端手法と比較して示す。
- データセットのバイアスに対するエンドツーエンド学習の頑健性と潜在的なスケーラビリティの利点を探る。
提案手法
- PDB を掘り起こして、42,826 の二項タンパク質相互作用と、五百万を超えるポジティブな界面アミノ酸対を含む DIPS データセットを構築する。
- 各界面対を surfacelet と呼ばれる局所的原子環境として表現し、原子種チャネルを持つ固定サイズの4Dグリッドにボクセル化する。
- 結合ウェイトを共有するシアマース型の3D CNN を用いて2つの surfacelet を処理し、潜在表現を連結して2値分類を行う。
- バイナリ交差エントロピー損失で訓練し、回転不変性のためランダム回転によるデータ拡張を用いる。
- DB5-test で各複合体あたりの中央値 AUROC (CAUROC) を用いて評価し、最良の検証リプリカの CAUROC を報告する。
- DIPS で訓練された SASNet が、手作り特徴法よりも優れていることを示す。たとえ DIPS のごく一部のみで訓練した場合でも。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドの3D CNN は、対をなすタンパク質界面予測において手作り特徴法を上回れるか?
- RQ2大規模でバイアスを含むデータセット(DIPS)で訓練することは、界面予測のゴールドスタンダードテストデータ(DB5-test)の性能を向上させるか?
- RQ3従来の DB5 訓練モデルと比較して、DIPS の一部のみで訓練した場合の SASNet の性能はどうか?
- RQ4グリッドサイズやデータセットサイズといったハイパーパラメータが SASNet の性能に与える影響は何か?
主な発見
| 手法 | CAUROC (DB5-test) | シードのばらつき (Std) |
|---|---|---|
| NGF | 0.843 (0.851 +/- 0.010) | 0.010 |
| DTNN | 0.861 (0.861 +/- 0.004) | 0.004 |
| Node+Edge Average | 0.844 (0.850 +/- 0.004) | 0.004 |
| Order Dependent | 0.857 (0.864 +/- 0.006) | 0.006 |
| Node Average | 0.876 (0.877 +/- 0.005) | 0.005 |
| BIPSPI | 0.878 (0.878 +/- 0.003) | 0.003 |
| SASNet | 0.892 (0.885 +/- 0.009) | 0.009 |
- SASNet は DB5-test で 0.892 CAUROC を達成し、全ての比較ベースラインを上回る。
- DIPS で訓練された比較手法は DB5-test で劣化する一方、DIPS で訓練した SASNet は改善する。
- DIPS のわずか3%で訓練した SASNet でも、DB5 で訓練された最先端手法を上回る。
- グリッドサイズを大きくすると一定の性能向上が見られ、41 Å のエッジ長と 1 Å の分解能で高い結果を示す。
- より大規模な DIPS データセットは一貫して SASNet の性能を向上させ、より多くのデータを活用できる可能性を示している。
- 結合複合体のみを訓練データとした SASNet でも、未結合様式のシナリオへ一般化できることが示され、学習された特徴が単なる形状の適合性を超えたタンパク質の柔軟性を捉えていることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。