[論文レビュー] State-specific protein-ligand complex structure prediction with a multi-scale deep generative model
NeuralPLexerは、蛋白質配列とリガンドグラフから原子レベルの蛋白質-リガンド複合体構造を予測する多スケール拡散ベースの生成モデルであり、最先端のドッキングおよび結合部位の構造回復を達成し、大規模な構造変化を含む。
The binding complexes formed by proteins and small molecule ligands are ubiquitous and critical to life. Despite recent advancements in protein structure prediction, existing algorithms are so far unable to systematically predict the binding ligand structures along with their regulatory effects on protein folding. To address this discrepancy, we present NeuralPLexer, a computational approach that can directly predict protein-ligand complex structures solely using protein sequence and ligand molecular graph inputs. NeuralPLexer adopts a deep generative model to sample the 3D structures of the binding complex and their conformational changes at an atomistic resolution. The model is based on a diffusion process that incorporates essential biophysical constraints and a multi-scale geometric deep learning system to iteratively sample residue-level contact maps and all heavy-atom coordinates in a hierarchical manner. NeuralPLexer achieves state-of-the-art performance compared to all existing methods on benchmarks for both protein-ligand blind docking and flexible binding site structure recovery. Moreover, owing to its specificity in sampling both ligand-free-state and ligand-bound-state ensembles, NeuralPLexer consistently outperforms AlphaFold2 in terms of global protein structure accuracy on both representative structure pairs with large conformational changes (average TM-score=0.93) and recently determined ligand-binding proteins (average TM-score=0.89). Case studies reveal that the predicted conformational variations are consistent with structure determination experiments for important targets, including human KRAS$^ extrm{G12C}$, ketol-acid reductoisomerase, and purine GPCRs. Our study suggests that a data-driven approach can capture the structural cooperativity between proteins and small molecules, showing promise in accelerating the design of enzymes, drug molecules, and beyond.
研究の動機と目的
- 単一の構造に基づくタンパク質折りたたみを超え、蛋白質-リガンド複合体とそれに誘導される構造変化を予測する必要性を動機づける。
- タンパク質配列とリガンドグラフを入力として3D複合体構造をサンプリングするエンドツーエンドの生成フレームワークを開発する。
- グローバルな文脈と局所的相互作用の両方を捉えるため、多スケールアーキテクチャを介して生物物理学的帰納的バイアスを組み込む。
- 多様なベンチマークに渡って、ブラインドドッキングおよび結合部位構造回復で最先端性能を示す。
提案手法
- オートレグレッシブな接触予測と拡散ベースの等変性構造デノイズモジュールを組み合わせた多スケール生成モデルを用いる。
- 分子ヒートトランスフォーマーとフレームベース表現を用いてリガンドとタンパク質パッチをエンコードし、リッチな埋め込みを得る。
- 残基およびリガンド残基接触分布を自己回帰的にサンプリングして粗粒度の近接マップを構築する。
- 立体化学を意識したグラフトランスフォーマーを用いた等変性拡散過程で原子レベル座標を生成する。
- タンパク質言語モデル埋込み(ESM-2)とAF2テンプレートを補助入力として生成を条件付ける。
- contact-mapクロスエントロピーと構造デノイズ項を組み合わせた損失でPL2019-74kデータセットで訓練する。
実験結果
リサーチクエスチョン
- RQ1深層生成モデルは、タンパク質配列とリガンドグラフからエンドツーエンドでリガンド結合複合体構造を予測できるか?
- RQ2リガンド結合時の構造変化、誘導適合を含むシナリオをどれだけ上手く捉えられるか?
- RQ3PLMsとテンプレート構造を統合することは、配列/グラフ入力だけの場合と比べて原子レベルの複合体予測を改善するか?
- RQ4先行する最先端手法と比較して、ブラインドドッキングおよび結合部位回復の性能はどうか?
主な発見
- NeuralPLexerはブラインドな蛋白質-リガンドドッキングベンチマークで最先端の性能を達成し、PDBBind2020で最大で78%のリガンドポーズ精度向上を達成した。
- 結合部位設計タスクでは、切り詰められた足場を用いて結合部位構造の最大46%を回復し、Rosettaより約59%の改善。
- 大きな構造可塑性を持つリガンド結合タンパク質に対して、NeuralPLexerは2つの精選ベンチマークデータセットで最高のTMスコア(平均 0.906)を達成し、AlphaFold2を11–13%上回る。
- 予測された構造変化は、ヒトKRAS G12C、ketol-acid reductoisomerase、および purine GPCRs などのターゲットについて実験的構造決定と一致します。
- インペインティングベースの結合部位モデリングは、AF2ガイドのベースラインと比較して衝突率が低く、結合ポケットの精度も競合的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。