[論文レビュー] OnionNet-2
OnionNet-2 は、複数の距離シェルにおける残基-原子接触をモデル化することで、タンパク質リガンド結合親和定数(ΔG)を予測する2次元畳み込みニューラルネットワークであり、CASF-2016 および CASF-2013 ベンチマークでそれぞれ 0.864 および 0.821 のピアソン積率相関係数を達成し、最先端の性能を発揮した。これは、従来のディープラーニングおよび伝統的なスコアリング関数を上回るものである。
One key task in virtual screening is to accurately predict the binding affinity (△<italic>G</italic>) of protein-ligand complexes. Recently, deep learning (DL) has significantly increased the predicting accuracy of scoring functions due to the extraordinary ability of DL to extract useful features from raw data. Nevertheless, more efforts still need to be paid in many aspects, for the aim of increasing prediction accuracy and decreasing computational cost. In this study, we proposed a simple scoring function (called OnionNet-2) based on convolutional neural network to predict △<italic>G</italic>. The protein-ligand interactions are characterized by the number of contacts between protein residues and ligand atoms in multiple distance shells. Compared to published models, the efficacy of OnionNet-2 is demonstrated to be the best for two widely used datasets CASF-2016 and CASF-2013 benchmarks. The OnionNet-2 model was further verified by non-experimental decoy structures from docking program and the CSAR NRC-HiQ data set (a high-quality data set provided by CSAR), which showed great success. Thus, our study provides a simple but efficient scoring function for predicting protein-ligand binding free energy.
研究の動機と目的
- タンパク質リガンド結合自由エネルギー(ΔG)を予測する、より正確で効率的なディープラーニングベースのスコアリング関数を開発すること。
- 原子レベルの特徴のみに依存するのではなく、残基レベルの相互作用を活用することで予測精度を向上させること。
- バーチャルスクリーニング応用においても高い性能を維持しつつ、計算コストを低減すること。
- 実験的および非実験的デコイ構造を含む多様なデータセットを用いてモデルを検証すること。
提案手法
- 各リガンド原子の周囲に複数の同心円状の距離シェル内に、回転不変で元素別に特徴付けられた残基-原子接触頻度を用いる。
- 距離シェルは、基本半径 d₀ と段階的厚さ δ を用いて定義され、タンパク質の残基とリガンド原子の空間的接近度を捉える。
- リガンド原子は8種類のタイプに分類される:C、H、O、N、P、S、HAL(ハロゲン)、DU(その他の元素)。
- 接触行列(残基 × リガンド原子)を2次元畳み込みニューラルネットワークが処理し、入力特徴は接触頻度から抽出される。
- モデルは PDBbind データセット(v.2016、v.2018、v.2019)上でエンドツーエンドに訓練され、標準的な CASF ベンチマークを用いて検証される。
- 非実験的デコイは AutoDock Vina を用いて生成され、多様な結合ポーズにおけるモデルの頑健性をテストするために用いられた。
実験結果
リサーチクエスチョン
- RQ1複数のシェルにわたる接触特徴を用いて、残基-原子レベルでのタンパク質リガンド相互作用をモデル化することで、原子レベルのモデルに比べてΔG予測精度が向上するか?
主な発見
- OnionNet-2 は CASF-2016 コアセットでピアソン積率相関係数 0.864、RMSE 1.164 を達成し、AGL、K deep、RF-Score-v3 などすべての比較モデルを上回った。
- CASF-2013 ベンチマークでは R = 0.821、RMSE = 1.29 を達成し、先行モデルである OnionNet よりも予測性能が 3.7% 向上した。
- AutoDock Vina で生成された非実験的デコイ構造に対しても、モデルは高い性能を維持し、多様な結合ポーズにわたる頑健性を確認した。
- CSAR NRC-HiQ データセットでも高い相関(R > 0.8)を達成し、高品質で多様な実験データへの汎用性を検証した。
- 原子レベルの特徴ではなく、残基レベルの特徴を用いることで、モデル性能が顕著に向上した。これは、残基固有の物理化学的性質が、正確な結合親和定数予測に不可欠であることを示している。
- PDBbind の複数バージョン(v.2016、v.2018、v.2019)で学習させた結果、データ分割にかかわらず一貫した性能を示し、安定した結果を得た。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。