Skip to main content
QUICK REVIEW

[論文レビュー] Deep Confident Steps to New Pockets: Strategies for Docking Generalization

Gabriele Corso, Arthur Deng|PubMed|Feb 28, 2024
Protein Structure and Dynamics参考文献 30被引用数 19
ひとこと要約

本論文は DockGen を導入し、ブラインドドッキング一般化の新たなベンチマークを提案、ML ドッキングモデルは未見のポケットには一般化が乏しいことを示し、拡張と Confidence Bootstrapping を用いて一般化を改善し、最先端の性能を達成する。

ABSTRACT

Accurate blind docking has the potential to lead to new biological breakthroughs, but for this promise to be realized, docking methods must generalize well across the proteome. Existing benchmarks, however, fail to rigorously assess generalizability. Therefore, we develop DockGen, a new benchmark based on the ligand-binding domains of proteins, and we show that existing machine learning-based docking models have very weak generalization abilities. We carefully analyze the scaling laws of ML-based docking and show that, by scaling data and model size, as well as integrating synthetic data strategies, we are able to significantly increase the generalization capacity and set new state-of-the-art performance across benchmarks. Further, we propose Confidence Bootstrapping, a new training paradigm that solely relies on the interaction between diffusion and confidence models and exploits the multi-resolution generation process of diffusion models. We demonstrate that Confidence Bootstrapping significantly improves the ability of ML-based docking methods to dock to unseen protein classes, edging closer to accurate and generalizable blind docking methods.

研究の動機と目的

  • 多様なタンパク質ポケットに跨るブラインドドッキングの一般化を評価する必要性を動機付ける。
  • 学習ポケットを超えるドメインレベルの一般化を評価するための DockGen を提案する。
  • MLベースのドッキングの拡張性の法則を分析し、データ/モデルの成長が一般化に与える影響を理解する。
  • ポケットの多様性を拡張するための合成データ増強を導入し、その影響を研究する。
  • 拡散モデルと信頼モデルのフィードバックによって一般化を向上させる Confidence Bootstrapping を提示する。

提案手法

  • ECOD によるタンパク質ドメインのクラスタリングを用い、Binding MOAD からフィルタリングした 141/189 複合体の検証/テストセットを作成して DockGen ベンチマークを開発する。
  • DockGen 上でベースラインの ML および探索ベースのドッキング手法を評価し、一般化ギャップを定量化する。
  • データとモデルサイズを拡大して一般化トレンドを研究する。訓練を拡張するために van der Mer に着想を得たsynthetic sidechain ligands を導入する。
  • DockGen で新しい SOTA を達成するため Larger models および augmented data を組み合わせて DiffDock-L を提案する(他のベンチマークにも適用)。
  • Confidence Bootstrapping: 拡散モデルがポーズを生成し、信頼モデルがそれを評価し、初期の拡散ステップをフィードバックで更新する自己訓練スキームを導入する。
  • 逐次最適化を定式化し、拡散スコアをロールアウトで更新し、反復間で信頼ガイドの再重み付けを行う。
Figure 1: Visual representation of the Confidence Bootstrapping training scheme. The dashed lines represent the reverse diffusion generation rollouts that the model executes. The dotted lines illustrate the bootstrapping feedback from the confidence model that is used to update the likelihood of the
Figure 1: Visual representation of the Confidence Bootstrapping training scheme. The dashed lines represent the reverse diffusion generation rollouts that the model executes. The dotted lines illustrate the bootstrapping feedback from the confidence model that is used to update the likelihood of the

実験結果

リサーチクエスチョン

  • RQ1既存の ML ベースのドッキング手法は未見のタンパク質ポケットドメインへどの程度一般化できるか?
  • RQ2訓練データとモデルサイズの増加はブラインドドッキングの一般化にどのような影響を与えるか?
  • RQ3合成データ増強はポケットの多様性を広げ、ドッキングの一般化を改善できるか?
  • RQ4信頼ガイド付きブートストラッピングスキームは未見のタンパク質クラス上の拡散ベースドドッキングを改善できるか?
  • RQ5DockGen ベンチマークでより大きく拡張された拡散モデルのパフォーマンスはどうなるか?

主な発見

PDBBindDockGen -fullDockGen -clusters平均手法% < 2Å中位数% < 2Å中位数% < 2Å中位数実行時間(秒)
SMINA18.77.17.913.82.416.4126*
SMINA (ex. 64)25.45.510.613.54.714.7347*
P2Rank+SMINA20.44.37.914.11.216.4126*
GNINA22.97.714.315.29.414.5127
GNINA (ex. 64)32.14.217.58.111.86.2348
P2Rank+GNINA28.84.913.816.24.715.3127
EquiBind5.56.20.013.30.013.30.04
TANKBind20.44.00.511.60.011.10.7
DiffDock (10)35.03.67.16.86.16.010
DiffDock (40)38.23.36.07.33.76.740
DiffDock-L (10)43.02.822.64.327.63.725
DiffDock-S + C.B. (10)----24.03.82.8
  • DockGen は未見のポケットに対する既存の ML ドッキング手法の強い一般化ギャップを示す。
  • DiffDock-L は DockGen でトップ1の成功率を 7.1% から 22.6% に改善し、強力なベースラインを超え、最先端の結果を達成した。
  • MOAD での訓練データを増強し、van der Mer に着想を得た合成リガンドを採用することはポケットの多様性を増し、性能を控えめに向上させる。
  • より大きなモデルサイズ(例: 30M パラメータ)はデータ増強と組み合わせると一般化が向上する。
  • Confidence Bootstrapping は DockGen-clusters の DiffDock-S の性能を 9.8% から 24.0% に大幅に向上させ、半数以上のクラスタで 30% 以上を達成した。
  • DockGen 全体では、信頼性を高めた拡散アプローチは高探索性の下で従来の探索手法より優れている。
Figure 2: A. An example of the superimposition of the pockets of two proteins in PDBBind, 1QXZ in pink and 5M4Q in cyan, that share a very similar binding pocket structure (a bound ligand is shown in red), but have only 22% sequence similarity. While sequence similarity splits would classify them in
Figure 2: A. An example of the superimposition of the pockets of two proteins in PDBBind, 1QXZ in pink and 5M4Q in cyan, that share a very similar binding pocket structure (a bound ligand is shown in red), but have only 22% sequence similarity. While sequence similarity splits would classify them in

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。