[論文レビュー] 3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction
TargetDiffは、ターゲット認識分子を非自己回帰的に生成し、結合親和性のランク付けと予測に役立つ教師なし特徴量を提供する、3D SE(3)-等変拡散モデルです。
Rich data and powerful machine learning models allow us to design drugs for a specific protein target \textit{in silico}. Recently, the inclusion of 3D structures during targeted drug design shows superior performance to other target-free models as the atomic interaction in the 3D space is explicitly modeled. However, current 3D target-aware models either rely on the voxelized atom densities or the autoregressive sampling process, which are not equivariant to rotation or easily violate geometric constraints resulting in unrealistic structures. In this work, we develop a 3D equivariant diffusion model to solve the above challenges. To achieve target-aware molecule design, our method learns a joint generative process of both continuous atom coordinates and categorical atom types with a SE(3)-equivariant network. Moreover, we show that our model can serve as an unsupervised feature extractor to estimate the binding affinity under proper parameterization, which provides an effective way for drug screening. To evaluate our model, we propose a comprehensive framework to evaluate the quality of sampled molecules from different dimensions. Empirical studies show our model could generate molecules with more realistic 3D structures and better affinities towards the protein targets, and improve binding affinity ranking and prediction without retraining.
研究の動機と目的
- タンパク質結合ポケットに条件付けられた分子を生成する、非自己回帰的な、SE(3)-等変拡散モデルを開発する。
- 3D相互作用を捉えるため、連続的な原子座標と離散的な原子タイプを共同でモデル化する。
- 創薬スクリーニングを支援するため、創生過程から教師なしの親和性推定を可能にする。
- CrossDocked2020で、複数の構造的および親和性関連指標を用いて生成分子を評価する。
- ターゲット認識型創薬のために、学習とサンプリングを整合させたエンドツーエンドのフレームワークを提供する。
提案手法
- タンパク質ポケットと分子を、座標と特徴を持つ3D原子点集合として表現する。
- 適切なノイズスケジュールを用いた、連続座標と離散原子タイプの両方に対するDDPM風拡散フレームワークを使用する。
- 原子埋め込みと座標の更新を交互に行う、SE(3)-等変グラフニューラルネットワークを実装する。
- ノイズ除去後のx0, v0を予測する逆過程をパラメータ化し、平行移動・回転不変の尤度をモデル化する。
- 原子座標と原子タイプの損失を組み合わせた学習を行い、座標には加重なしのMSEを用いる可能性がある。
- 教師なしのデノイズ特徴を親和性ランキングに活用し、監視付き親和性予測子の強化をオプションで行う。
実験結果
リサーチクエスチョン
- RQ1非自己回帰的でSE(3)-等変拡散モデルは、現実的な3Dターゲット認識分子を生成できるのか?
- RQ2座標と原子タイプの共同拡散は、自動回帰法やボクセルベースの方法と比較して、3D構造の忠実度と結合の現実性を向上させるのか?
- RQ3拡散モデルは結合親和性と相関する有用な教師なし特徴を提供し、親和性ランキング/予測を改善するのか?
- RQ4TargetDiff生成分子は、構造的現実性、ドッキングエネルギー、薬物様性の観点でベースラインと比べてどうか?
- RQ5再訓練なしでスケーラブルなターゲット認識型創薬を可能にするよう、訓練とサンプリングの手順は整合されているか?
主な発見
| モデル | Vinaスコア(Avg)または Avg | Vinaスコア(Med) | Vina Dock(Avg) | Vina Dock(Med) | 高い親和性(Avg) | 高い親和性(Med) | QED(Avg) | QED(Med) | SA(Avg) | SA(Med) | Diversity(Avg) | Diversity(Med) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| liGAN | -6.33 | -6.20 | 21.1% | 11.1% | 0.39 | 0.39 | 0.59 | 0.57 | 0.66 | 0.67 | - | - |
| GraphBP | -4.80 | -4.70 | 14.2% | 6.7% | 0.43 | 0.45 | 0.43 | 0.45 | 0.49 | 0.48 | 0.79 | 0.78 |
| AR | -5.75 | -5.64 | -6.18 | -5.88 | 37.9% | 31.0% | 0.51 | 0.50 | 0.63 | 0.63 | 0.70 | 0.70 |
| Pocket2Mol | -5.14 | -4.70 | -7.15 | -6.79 | 48.4% | 51.0% | 0.56 | 0.57 | 0.74 | 0.75 | 0.69 | 0.71 |
| TargetDiff | -5.47 | -6.30 | -7.80 | -7.91 | 58.1% | 59.1% | 0.48 | 0.48 | 0.58 | 0.58 | 0.72 | 0.71 |
| Reference | -6.36 | -6.46 | -6.71 | -6.49 | - | - | 0.48 | 0.47 | 0.73 | 0.74 | - | - |
- TargetDiffはより現実的な3D構造を持つ分子を生成し、基準結合距離分布との整合性でベースラインよりも優れている。
- TargetDiffは競合モデルよりも剛性フラグメントの一貫性が高く(MMFFベースのRMSDが低い)、一貫性がある。
- 100のテストターゲットで、TargetDiff分子は中央値Vinaエネルギーが57%のターゲットで最良、ハイアフィニティ率もベースラインと比べて高い(平均58.1%)。
- 生成分子はVina Dockスコアで競争力があるか優れており、QED、SA、Diversityもベースライン法に比べて妥当な水準を維持する。
- デノイズ済み原子タイプ分布のエントロピー(教師なし特徴)は実験的親和性と相関し、これらの特徴を監視付きモデルと組み合わせるとPDBbind v2020で結合親和性予測を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。