QUICK REVIEW

[論文レビュー] 3DMolNet: A Generative Network for Molecular Structures

Vitali Nesterov, Mario Wieser|arXiv (Cornell University)|Oct 8, 2020

Machine Learning in Materials Science参考文献 41被引用数 25

ひとこと要約

3DMolNetは、正規化原子順序を用いて並進・回転・置換不変な連続的潜在空間を学習する、変分オートエンコーダーに基づく3次元分子構造用生成モデルを提案する。重原子座標の再構成誤差が0.05 Å未塔であり、最先端手法の4倍の精度を達成しており、有効な幾何構造と新規な化学構造を有する高忠実度で多様な化学組成の分子生成を可能にする。

ABSTRACT

With the recent advances in machine learning for quantum chemistry, it is now possible to predict the chemical properties of compounds and to generate novel molecules. Existing generative models mostly use a string- or graph-based representation, but the precise three-dimensional coordinates of the atoms are usually not encoded. First attempts in this direction have been proposed, where autoregressive or GAN-based models generate atom coordinates. Those either lack a latent space in the autoregressive setting, such that a smooth exploration of the compound space is not possible, or cannot generalize to varying chemical compositions. We propose a new approach to efficiently generate molecular structures that are not restricted to a fixed size or composition. Our model is based on the variational autoencoder which learns a translation-, rotation-, and permutation-invariant low-dimensional representation of molecules. Our experiments yield a mean reconstruction error below 0.05 Angstrom, outperforming the current state-of-the-art methods by a factor of four, and which is even lower than the spatial quantization error of most chemical descriptors. The compositional and structural validity of newly generated molecules has been confirmed by quantum chemical methods in a set of experiments.

研究の動機と目的

自己回帰的3次元分子生成モデルにおける連続的潜在空間の欠如に起因する化学化合物空間の滑らかな探索が困難になる問題に対処すること。
固定化学組成に限定されるGANベースのモデルの組成特異的制限を克服すること。
正確な原子座標、結合種別、化学組成を伴う高精度な3次元分子構造生成を可能にすること。
連続的潜在空間からのサンプリングと量子化学的検証を通じて、新規で化学的に妥当な分子の発見を支援すること。
原子番号、距離、結合行列に基づく1回の入力で微分可能かつ不変な分子構造表現を提供すること。

提案手法

モデルは、並進・回転・原子置換に対して不変な連続的低次元潜在表現を学習するための変分オートエンコーダー（VAE）を用いる。
分子表現における置換問題を解消するために、InChIに基づく重原子の正規化順序を採用する。
3つの成分を別々にデコードする：原子番号行列、ユークリッド距離行列（EDM）、結合行列。これらはニューラルネットワークを用いて処理される。
デコードされたEDMと原子番号行列から、古典的多次元スケーリング（MDS）を用いて3次元座標を再構成し、水素原子は後から量子力学的最適化により追加される。
VAEはQM9データセット上でエンドツーエンドに訓練され、原子座標のRMSDに基づく再構成損失と結合種別・組成の忠実度の検証が行われる。
潜在空間の探索は、学習されたガウス事前分布からのサンプリングにより実施され、多様な組成を持つ新規分子構造の生成が可能になる。

実験結果

リサーチクエスチョン

RQ1VAEベースの生成モデルは、並進・回転・原子置換に対して不変でありながら、高精度な3次元分子構造再構成を達成できるか？
RQ2連続的潜在空間からのサンプリングにより、多様な化学組成と妥当な幾何構造を持つ新規分子構造を生成できるか？
RQ3座標再構成精度と多様な組成への一般化性能において、従来の自己回帰的およびGANベースの手法を上回るか？
RQ4生成された分子は、結合種別と化学組成を正確に保持しているか？量子力学的弛緩後に幾何構造は安定しているか？
RQ5滑らかな潜在空間内での補間と生成により、化学化合物空間の有意義な探索が可能になるか？

主な発見

重原子座標の平均再構成誤差が0.05 Å未塔であり、最先端手法を4倍の精度で上回っている。
再構成精度は、一般的な化学記述子の典型的な空間量子化誤差以下であり、高忠実度を示している。
潜在空間のサンプリングにより、QM9データセットに重複がない20,000以上の新規分子構造（独自の化学組成を有する）が発見された。
MOPACを用いた幾何構造弛緩後、生成された構造と平衡構造との平均RMSDは0.32 Åであり、重原子のずれが最小であった。
モデルは再構成において正確な化学組成と結合種別を保持しており、量子化学的手法による有効性が確認された。
水素原子がRMSDのずれの主な寄与要因であったが、その位置は化学的機能にとってあまり重要ではないため、モデルが重原子の正確性に焦点を当てていることを裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。