[論文レビュー] Torsional Diffusion for Molecular Conformer Generation
拡散モデルがねじれ角度(ハイパートーラス上)で動作し、分子コンフォマーを生成する。GEOM-DRUGSで最先端の結果を達成し、ノイズ除去ステップをはるかに減らし、Boltzmannサンプリングのための厳密な尤度を提供。
Molecular conformer generation is a fundamental task in computational chemistry. Several machine learning approaches have been developed, but none have outperformed state-of-the-art cheminformatics methods. We propose torsional diffusion, a novel diffusion framework that operates on the space of torsion angles via a diffusion process on the hypertorus and an extrinsic-to-intrinsic score model. On a standard benchmark of drug-like molecules, torsional diffusion generates superior conformer ensembles compared to machine learning and cheminformatics methods in terms of both RMSD and chemical properties, and is orders of magnitude faster than previous diffusion-based models. Moreover, our model provides exact likelihoods, which we employ to build the first generalizable Boltzmann generator. Code is available at https://github.com/gcorso/torsional-diffusion.
研究の動機と目的
- 分子の柔軟性が主に存在するねじれ自由度に拡散を集中させることにより、効率的なコンフォマー生成を動機づける。
- SE(3)とパリティ対称性を尊重しつつ、3D点群上で動作する外在的から内在的スコアモデルを開発する。
- ねじれ角の拡散をハイパートーラス上で定式化し、Boltzmann型のトレーニングのための厳密な尤度計算を可能にする。
- 機械学習および計分化ベースのベースラインを上回り、最先端のコンフォマー集合の品質と化学的性質を実証する。
- 未見分子間でのボルツマン分布の一般化可能なサンプリングのためのねじれボルツマン発生器を導入する。
提案手法
- ねじれ角上の拡散を、wrappped正規分布摂動カーネルを用いたハイパートーラス T^m 上の拡散過程として定式化する。
- 3Dコンフォマー(外在座標)を取り、ねじれ更新(内在空間)を出力する外在的から内在的スコアモデルを、SE(3)不変性およびパリティ等変性を保った形で用いる。
- 回転結合ごとの偽スカラー出力を用いた最終的な疑似トルク層によりねじれ更新を予測し、SE(3)不変性とパリティ等変性を保証する。
- 確率流れODEと直接の発散項を用いてねじれ角の厳密な対数尤度を計算し、Boltzmann分布を用いたエネルギーベースの学習を可能にする。
- 固有値分解に基づく係数を介してねじれ尤度をユークリッド空間へ変換する変換を提供し、p_G(tau|L) を p_G(x|L) に関連付ける。
- Boltzmannサンプルを用いてデノイジングスコアマッチング損失を重み付けするエネルギーベースの学習を説明し、コンフォマー生成のフローとして用いられるスコアベースモデルとしての学習を可能にする。
実験結果
リサーチクエスチョン
- RQ1ハイパートーラス上のねじれ角の拡散は、従来の計算化学とユークリッド拡散法を上回るコンフォマー集合を生成できるか。
- RQ2外在的から内在的へのSE(3)-不変スコアモデルは、標準的なねじれ定義を必要とせず、分子依存の頑健なねじれ更新を実現できるか。
- RQ3ねじれ構造のコンフォマーに対して厳密な尤度を計算でき、Boltzmann生成器風のトレーニングと未見分子間での一般化可能なサンプリングを可能にするか。
- RQ4ねじれ拡散法は、デノイジングステップの必要数を減らしつつ、集合の品質と化学的特性を改善するか。
主な発見
| 手法 | Recall 平均 | Recall 中央 | Precision 平均 | Precision 中央 | Coverage 平均 | Coverage 中央 | AMR 平均 | AMR 中央 |
|---|---|---|---|---|---|---|---|---|
| RDKit ETKDG | 38.4 | 28.6 | 1.058 | 1.002 | 40.9 | 30.8 | 0.995 | 0.895 |
| OMEGA | 53.4 | 54.6 | 0.841 | 0.762 | 40.5 | 33.3 | 0.946 | 0.854 |
| GeoMol | 44.6 | 41.4 | 0.875 | 0.834 | 43.0 | 36.4 | 0.928 | 0.841 |
| GeoDiff | 42.1 | 37.8 | 0.835 | 0.809 | 24.9 | 14.5 | 1.136 | 1.090 |
| Torsional Diffusion | 72.7 | 80.0 | 0.582 | 0.565 | 55.2 | 56.9 | 0.778 | 0.729 |
- GEOM-DRUGS において、ねじれ拡散はカバレッジを高く、AMRを低く達成し、RDKit ETKDG、OMEGA、GeoMol、GeoDiff を上回る。
- ねじれ拡散は Recall 72.7% および 80.0%、Precision 0.582 および 0.565 を、それぞれ平均/中央値値で達成し、従来手法を上回る。
- Euclidean拡散ベースラインよりはるかに少ないデノイジングステップで済み(GeoDiffは千単位、5–20ステップ程度ですらしく)一方で集合品質も向上。
- エネルギー、双極子、HOMO-LUMOギャップなどの集合特性は真値との整合性が改善され、中央値で最も低エネルギーなコンフォマーはグローバルミニマムから0.13 kcal/mol以内。
- ねじれボルツマン発生器は未見分子間でのボルツマン分布の一般化可能なサンプリングを実現し、AISベースラインより有効サンプルサイズで上回り、控えめなリサンプリングステップを使用。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。