[論文レビュー] Direct Molecular Conformation Generation
本論文は Direct Molecular Conformation Generation (DMCG) を提案し、回転平行移動と原子対称性に対して不変な直接座標生成モデルで、GEOM-QM9 と GEOM-Drugs の小規模・大規模データセットで最先端となる結果を示す。
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
研究の動機と目的
- 分子の3D座標を直接生成する方法を動機づけ、 intermediates の距離やトーション角に頼らない方法を開発する。
- 回転平行移動と対称原子の置換に不変な損失を設計する。
- 座標を改良する際に結合・原子・全体分子情報を統合するブロック型の反復モデルを提案する。
- 多様な立体配置を可能にする変分成分を導入し、ドッキングなどの下流タスクへの有用性を評価する。
提案手法
- Ground truth と生成座標間の距離を、任意の回転・平行移動・対称原子置換の下で最小化する roto-translational および permutation 不変の損失を定義する。
- 各ブロック後の中心正規化を行い、座標を安定させつつ L ブロックで座標を反復的に改良するモデルを開発する。
- 2D 分子グラフと初期コンフォをエンコードして、3D デコーダで使用される表現を生成する;多様な立体を持つ潜在変数 z を注入する。
- KL 正則化を伴う VAE 風の目的を用い、エンドツーエンドで訓練しつつ多様なコンフォメーションを奨励する。
- 推論時に事前分布から z をサンプリングできるよう、RTP 損失と KL ダイバージェンスを組み合わせた目的で訓練する。
- 対称性は、分子グラフのグラフ同型性を用いて置換集合 S を構築し、対称原子写像に対する損失不変性を確保する。
実験結果
リサーチクエスチョン
- RQ1回転平行移動と置換不変性を尊重しつつ、分子座標を直接生成できるか?
- RQ2反復的・ブロック単位のアーキテクチャで座標を直接予測することは、距離ベースや拡散ベースのアプローチよりもコンフォメーション品質を改善するか?
- RQ3潜在変数を導入することで多様で正確なコンフォメーションが得られ、ドッキングなどの下流タスクに役立つか?
主な発見
| 方法 | QM9_COV_mean | QM9_COV_median | QM9_MAT_mean | QM9_MAT_median | Drugs_COV_mean | Drugs_COV_median | Drugs_MAT_mean | Drugs_MAT_median |
|---|---|---|---|---|---|---|---|---|
| RDKit | 83.26 | 90.78 | 0.3447 | 0.2935 | 60.91 | 65.70 | 1.2026 | 1.1252 |
| CVGAE | 0.09 | 0.00 | 1.6713 | 1.6088 | 0.00 | 0.00 | 3.0702 | 2.9937 |
| GraphDG | 73.33 | 84.21 | 0.4245 | 0.3973 | 8.27 | 0.00 | 1.9722 | 1.9845 |
| CGCF | 78.05 | 82.48 | 0.4219 | 0.3900 | 53.96 | 57.06 | 1.2487 | 1.2247 |
| ConfVAE | 80.42 | 85.31 | 0.4066 | 0.3891 | 53.14 | 53.98 | 1.2392 | 1.2447 |
| GeoMol | 71.26 | 72.00 | 0.3731 | 0.3731 | 67.16 | 71.71 | 1.0875 | 1.0586 |
| ConfGF | 88.49 | 94.13 | 0.2673 | 0.2685 | 62.15 | 70.93 | 1.1629 | 1.1596 |
| DGSM | 91.49 | 95.92 | 0.2139 | 0.2137 | 78.73 | 94.39 | 1.0154 | 0.9980 |
| GeoDiff | 90.54 | 94.61 | 0.2090 | 0.1988 | 89.13 | 97.88 | 0.8629 | 0.8529 |
| DMCG | 96.23 | 99.26 | 0.2083 | 0.2014 | 96.52 | 100.00 | 0.7220 | 0.7161 |
- DMCG は全ての設定で最先端のリコールベースのカバレッジ(COV)およびマッチング(MAT)スコアを達成した。
- 小規模 QM9 で、DMCG は COV 平均 96.23%、MAT 平均 0.2083 Å、中央値 99.26%、0.2014 Å。
- 小規模 Drugs で、DMCG は COV 平均 96.52%、MAT 平均 0.7220 Å、中央値 100.00%、0.7161 Å。
- 大規模 QM9 で、DMCG は COV 平均 98.34%、MAT 平均 0.1486 Å、中央値 100.00%、0.1340 Å。
- 大規模 Drugs で、DMCG は COV 平均 96.22%、MAT 平均 0.6967 Å、中央値 100.00%、0.6552 Å。
- DMCG は groundtruth に近い性質のコンフォメーション(例:HOMO-LUMOギャップ)を提供し、初期コンフォを改善して分子ドッキングを向上させる。
- DMCG はデコードが計算効率的で、大規模データセットにも適用でき、いくつかのベースラインに対して大幅な速度利得を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。