[論文レビュー] Application of generative autoencoder in de novo molecular design
この論文は、いくつかの生成型オートエンコーダーアーキテクチャ(VAEおよびAAEの派生)を用いた新規分子設計を評価し、潜在空間の構造を保持し、ベイズ最適化を用いて予測DRD2活性をターゲットにすることを示している。
A major challenge in computational chemistry is the generation of novel molecular structures with desirable pharmacological and physiochemical properties. In this work, we investigate the potential use of autoencoder, a deep learning methodology, for de novo molecular design. Various generative autoencoders were used to map molecule structures into a continuous latent space and vice versa and their performance as structure generator was assessed. Our results show that the latent space preserves chemical similarity principle and thus can be used for the generation of analogue structures. Furthermore, the latent space created by autoencoders were searched systematically to generate novel compounds with predicted activity against dopamine receptor type 2 and compounds similar to known active compounds not included in the training set were identified.
研究の動機と目的
- 化合物が連続的な潜在空間へ写像され、オートエンコーダによって再構成できるかを探る。
- 潜在空間が化学的類似性の原理を保持するかを評価する。
- 潜在空間表現を用いて望ましい性質を持つ新規化合物を生成できるかを評価する。
- VAEの教師付き forcing の有無を含む、Gaussian/Uniform priorsを持つAAEを比較する。
- ターゲット活性(DRD2)を指示するQSARモデルに導かれた潜在空間でのベイズ最適化を実証する。
提案手法
- ChEMBL SMILESデータ上で、NoTeacher VAE、Teacher VAE、Gauss AAE、Uniform AAE の複数のオートエンコーダーを訓練し、56次元潜在空間にマッピングする。
- シーケンス生成時のSMILESの有効性を改善するために教師強制を使用する。
- 潜在先行を強制する識別器を追加して敵対的オートエンコーダを実装する(GaussianまたはUniform)。
- SMILESを35トークンにトークン化し、デコーダ出力をサンプルして新しいSMILESを生成し、RDKitで検証する。
- 潜在空間でベイズ最適化を適用し、DRD2活性SVMモデルを目的として高スコア化した化合物を特定する。
- 生成された構造を、8員環を超える環を除去し、SMILESの有効性を保証してフィルタリングする。
実験結果
リサーチクエスチョン
- RQ1生成モデルオートエンコーダにおいて、化合物を連続的な潜在空間に正確に写像し再構成できるか?
- RQ2潜在空間は局所的な化学的類似性を保持し、類似体探索を可能にするか?
- RQ3潜在空間生成とQSARモデルを組み合わせて、DRD2に対する予測活性を持つ新規化合物を発見できるか?
- RQ4異なるAEアーキテクチャは再構成、生成SMILESの妥当性、潜在空間の滑らかさにどのような影響を与えるか?
- RQ5ベイズ最適化は、潜在空間探索を高活性候補へ誘導しつつ合成実現性を維持するのに有効か?
主な発見
| Model | Average character reconstruction % in training set (training mode) | Average character reconstruction % in validation set (generation mode) | Valid SMILES % in validation set (generation mode) |
|---|---|---|---|
| NoTeacher VAE | 96.8 | 96.3 | 19.3 |
| Teacher VAE | 97.4 | 86.2 | 77.6 |
| Gauss AAE | 98.2 | 89.0 | 77.4 |
| Uniform AAE | 98.9 | 88.5 | 78.3 |
- 4つのモデルすべてが訓練データで高い文字再構成を達成し、教師強 forcedモデルは生成モードでの有効なSMILESの割合が高い。
- Uniform AAEは最も多くの有効なSMILESを提供し、Celecoxib類似体を訓練から除外しても滑らかな潜在空間を維持する。
- 潜在空間がCelecoxibへの近接と生成化合物の構造的類似性の向上と相関し、局所的な類似性原理を支持する。
- BO誘導探索はUniform AAE潜在空間で高い予測DRD2活性を持つ構造を生み出し、既知活性体への妥当な類似性を示す。
- BOアプローチはPactive値が0.5を超える多くの候補を特定し、生成された活性体のかなりの部分が検証済み活性体に妥当な類似性を持つ。
- Celecoxib類似体を訓練から除外しても、Uniform AAEはCelecoxib近傍を効果的に再構成し、潜在表現の頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。