[論文レビュー] Atomic Convolutional Networks for Predicting Protein-Ligand Binding Affinity
本論文は Atomic Convolutional Neural Networks (ACNNs) を導入し、3D 座標から直接タンパク質-リガンド結合アフィニティを予測し、PDBBind データセット上で構造ベースのベースラインと競合的な性能を示す。
Empirical scoring functions based on either molecular force fields or cheminformatics descriptors are widely used, in conjunction with molecular docking, during the early stages of drug discovery to predict potency and binding affinity of a drug-like molecule to a given target. These models require expert-level knowledge of physical chemistry and biology to be encoded as hand-tuned parameters or features rather than allowing the underlying model to select features in a data-driven procedure. Here, we develop a general 3-dimensional spatial convolution operation for learning atomic-level chemical interactions directly from atomic coordinates and demonstrate its application to structure-based bioactivity prediction. The atomic convolutional neural network is trained to predict the experimentally determined binding affinity of a protein-ligand complex by direct calculation of the energy associated with the complex, protein, and ligand given the crystal structure of the binding pose. Non-covalent interactions present in the complex that are absent in the protein-ligand sub-structures are identified and the model learns the interaction strength associated with these features. We test our model by predicting the binding free energy of a subset of protein-ligand complexes found in the PDBBind dataset and compare with state-of-the-art cheminformatics and machine learning-based approaches. We find that all methods achieve experimental accuracy and that atomic convolutional networks either outperform or perform competitively with the cheminformatics based methods. Unlike all previous protein-ligand prediction systems, atomic convolutional networks are end-to-end and fully-differentiable. They represent a new data-driven, physics-based deep learning model paradigm that offers a strong foundation for future improvements in structure-based bioactivity prediction.
研究の動機と目的
- タンパク質-リガンド複合体における原子間相互作用をモデル化する、学習可能でエンドツーエンドの3D畳み込みフレームワークを開発する。
- 手で調整した記述子を使わず、原子座標から直接特徴を学習できるようにする。
- 結合自由エネルギーを予測するため、熱力学的結合サイクルを学習目的に組み込む。
- PDBBind coreおよび refined セットにおいて、ACNNを確立された構造ベースおよびリガンドベースのベースラインと比較評価する。
提案手法
- カットオフ距離(12 Å)までの局所原子環境を表す、近傍リストに基づく距離行矩を定義する。
- 隣接距離行列上の1x1畳み込みを用いて、原子種ごとに特徴を展開する原子種畳み込みを適用する。
- 放射状プーリングを用いて、隣接原子間の相互作用をダウンサンプリング・集約し、原子ごとの特徴ベクトルを生成する。
- 原子ごとの出力を平坦化し、共有の原子論的全結合ネットワークに入力して原子ごとのエネルギーを算出する。
- 原子ごとのエネルギーを合計して総分子エネルギーを得る。サイズ規模性と順列不変性を保証する。
- 三つの重み共有レプリカネットワーク(complex, protein, ligand)を訓練し、熱力学サイクル ΔG_complex = G_complex - G_protein - G_ligand を実験的結合データ(Delta G)に対して最適化する。
- Baseline comparisons include GRID (GRID-RF, GRID-NN), GCNN, and ECFP-based models to contextualize performance.
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドの3Dニューラルネットワークは、結晶構造から結合アフィニティに関連する原子間相互作用をどの程度うまく学習できるか。
- RQ2熱力学的結合サイクルを組み込むことで、タンパク質-リガンド結合自由エネルギーの予測精度が向上するか。
- RQ3PDBBindの異なるデータ分割(ランダム、層化、スキャフォールド、時系列)で、ACNNは確立された構造ベースおよびリガンドベースのベースラインとどう比較されるか。
- RQ4比較的小規模データセットで訓練した場合、およびより大規模なデータや異なる化学系に適用した場合のACNNの一般化と過剰適合の特性はどうなるか。
主な発見
- ACNN モデルは core データのテストセットで平均絶対誤差が 1 kcal/mol 未満を達成し、化学的精度のポテンシャルを示す。
- ACNN は core データの複数の train/test 分割で GRID-RF と競合するか上回ることがあり、エンドツーエンドモデルは妥当な一般化を示す。
- refined データセットでは ACNN の性能は GRID モデルと同等で、dropout が一般化を改善。
- リガンドベースのベースライン(GCNN, ECFP-RF/NN)は、タンパク質構造特徴の欠如により構造ベース手法に比べて一般化が劣る。
- ACNN は高い可能性を示す一方で core セットで過学習の兆候を示すため、データ量増加や正則化の必要が示唆される;より大規模で高品質なデータセットでの完全訓練は依然として挑戦的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。