[論文レビュー] GeoMol: Torsional Geometric Generation of Molecular 3D Conformer Ensembles
GeoMol は、分子グラフから局所構造とトーション角を予測することにより、多様な低エネルギーの3Dコンフォマー集合を生成する、エンドツーエンドの SE(3)-不変モデルであり、多様性のための最適輸送に基づく損失を用いる。
Prediction of a molecule's 3D conformer ensemble from the molecular graph holds a key role in areas of cheminformatics and drug discovery. Existing generative models have several drawbacks including lack of modeling important molecular geometry elements (e.g. torsion angles), separate optimization stages prone to error accumulation, and the need for structure fine-tuning based on approximate classical force-fields or computationally expensive methods such as metadynamics with approximate quantum mechanics calculations at each geometry. We propose GeoMol--an end-to-end, non-autoregressive and SE(3)-invariant machine learning approach to generate distributions of low-energy molecular 3D conformers. Leveraging the power of message passing neural networks (MPNNs) to capture local and global graph information, we predict local atomic 3D structures and torsion angles, avoiding unnecessary over-parameterization of the geometric degrees of freedom (e.g. one angle per non-terminal bond). Such local predictions suffice both for the training loss computation, as well as for the full deterministic conformer assembly (at test time). We devise a non-adversarial optimal transport based loss function to promote diverse conformer generation. GeoMol predominantly outperforms popular open-source, commercial, or state-of-the-art machine learning (ML) models, while achieving significant speed-ups. We expect such differentiable 3D structure generators to significantly impact molecular modeling and related applications.
研究の動機と目的
- 分子グラフから小分子の低エネルギー3Dコンフォマー集合を予測する。
- 局所3D構造とトーション角など、必須の幾何要素を過パラメータ化せずにモデル化する。
- SE(3)不変性を備えたエンドツーエンドの非自己回帰生成を可能にする。
- 対敵訓練なしで最適輸送損失を用いて、多様なコンフォマー集合を促進する。
- 高価な力場のファインチューニングに頼らず、迅速なコンフォマー生成を達成する。
提案手法
- 分子をグラフとして表現し、MPNNで原子埋め込みを計算する。
- 末端原子でない原子に対して、結合距離や角度を含む局所3D構造(LS)を、置換同値性を保つ方法で予測する。
- 隣接するLSを、結合ごとに1つのトーション角を予測して、canonical SE(3)-不変な定式化で組み立てる。
- リング補正とキラル中心の処理を有向体積で行い、テスト時に完全なコンフォマーを決定論的に組み立てる。
- 多様性のため、生成されたコンフォマーと基準真のコンフォマーを一致させる非対抗的な最適輸送ベースの損失で学習する。
- 基準となるコンフォマーの可変数に対応し、低エネルギー状態の網羅を促進するOTベースのアンサンブル損失を用いる。
実験結果
リサーチクエスチョン
- RQ1非自己回帰の SE(3)-不変MLモデルは、分子グラフから代表的な低エネルギーの3Dコンフォマー集合を生成できるのか?
- RQ2局所ジオメトリック予測(トーションと局所構造)をどのように組み合わせて、完全な3Dコンフォマーを決定論的に組み立てられるのか?
- RQ3最適輸送損失は、敵対的トレーニングなしで多様なコンフォマー生成を促進できるか?
- RQ4キラリティの明示的な処理と環状補正が、コンフォマーの精度と多様性に与える影響は何か?
主な発見
| モデル | COV-R 平均 | COV-R 中央値 | AMR-R 平均 | AMR-R 中央値 | COV-P 平均 | COV-P 中央値 | AMR-P 平均 | AMR-P 中央値 |
|---|---|---|---|---|---|---|---|---|
| GraphDG (ML) | 10.37 | 0.00 | 1.950 | 1.933 | 3.98 | 0.00 | 2.420 | 2.420 |
| CGCF (ML) | 54.35 | 56.74 | 1.248 | 1.224 | 24.48 | 15.00 | 1.837 | 1.829 |
| RDKit/ETKDG | 68.78 | 76.04 | 1.042 | 0.982 | 71.06 | 88.24 | 1.036 | 0.943 |
| OMEGA (C) | 81.64 | 97.25 | 0.851 | 0.771 | 77.18 | 96.15 | 0.951 | 0.854 |
| GeoMol (s=9.5) | 86.07 | 98.06 | 0.846 | 0.820 | 71.78 | 83.77 | 1.039 | 0.982 |
| GeoMol (s=5) | 82.43 | 95.10 | 0.862 | 0.837 | 78.52 | 94.40 | 0.933 | 0.856 |
| GeMol (s=5) | 91.52 | 100.00 | 0.225 | 0.193 | 86.71 | 100.00 | 0.270 | 0.241 |
- GeoMol は GEOM-QM9 および GEOM-DRUGS ベンチマークで、一般的な ML およびオープンソース/商用ベースラインをしばしば上回る。
- GeoMol は高価な力場のファインチューニングを必要とせず、競争力のある品質を達成する。
- GeoMol は薬物様分子のコンフォマーを数秒で生成し、ETKDG/RDKit などのベースラインよりはるかに速い。
- OTベースの損失は、生成されたコンフォマーを基準真と一致させることで、敵対的トレーニングなしに多様な集合を実現する。
- 向き付け体積による明示的なキラリティ処理は、エナンチオマーの精度を向上させる。
- 結合ごとに1つのトーション角と局所構造予測により過剰パラメータ化を抑えつつ、再構成忠実度を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。