QUICK REVIEW

[論文レビュー] Augmenting Genetic Algorithms with Deep Neural Networks for Exploring the Chemical Space

AkshatKumar Nigam, Pascal Friederich|arXiv (Cornell University)|Sep 25, 2019

Computational Drug Discovery Methods参考文献 30被引用数 94

ひとこと要約

本論文は、ニューラルネットワーク識別器を備えた遺伝的アルゴリズムを用いて多様性を促進し化学空間の探索を誘導し、ペナルティ化された logP スコアで最先端を達成した。

ABSTRACT

Challenges in natural sciences can often be phrased as optimization problems. Machine learning techniques have recently been applied to solve such problems. One example in chemistry is the design of tailor-made organic materials and molecules, which requires efficient methods to explore the chemical space. We present a genetic algorithm (GA) that is enhanced with a neural network (DNN) based discriminator model to improve the diversity of generated molecules and at the same time steer the GA. We show that our algorithm outperforms other generative models in optimization tasks. We furthermore present a way to increase interpretability of genetic algorithms, which helped us to derive design principles.

研究の動機と目的

特注の有機材料および分子を設計するための化学空間の効率的な探索を動機づける。
適応ニューラルネットワーク識別器を備えたGAを開発し、多様性を高め探索を誘導する。
GA-Dアプローチが分子最適化タスクで既存の生成モデルを上回ることを示す。
高性能な分子の設計原理を明らかにする解釈可能性の利点を示す。

提案手法

SELFIES形式で表現された分子の集団を用いるGAを使用する。
F(m) = J(m) + beta * D(m) を定義する。ここで J(m) はペナルized logP、D(m) はニューラルネットワークからの識別器スコア。
各世代の後に識別器を、GA生成データと参照データで訓練し、将来の適応度をバイアスする。
SELFIESのロバスト性に依存して無効な構造を生じないランダム変異を許容する。フェニル基追加突然変異ルール（約4％）を含める。
長時間の探索での停滞を緩和し、多様な分子ファミリーの探索を促進するために時変適応ペナルティを採用する。

実験結果

リサーチクエスチョン

RQ1GAに統合されたニューラルネットワーク識別器は化学空間の多様性と探索を改善できるか？
RQ2従来のGAと比較して識別器は長期最適化と停滞の回避にどのような影響を与えるか？
RQ3GA-Dのペナルized logPに対する他の生成モデルと比較したパフォーマンス向上はどのくらいか？
RQ4このアプローチは高性能分子の解釈可能な設計規則を生み出せるか？

主な発見

モデル	最大の penalized logP
GVAE + BO (Kusner et al., 2017)	2.87±0.06
VAE (Exploitation) (SD-VAE, 2018)	3.50±0.44
CVAE + BO (Gómez-Bombarelli et al., 2018)	4.85±0.17
ORGAN (Guimaraes et al., 2017)	3.52±0.08
JT-VAE (Jin et al., 2018a)	4.90±0.33
ChemTS (Yang et al., 2017)	5.6±0.5
GCPN (You et al., 2018)	7.87±0.07
Random SELFIES	6.19±0.63
GB-GA (Jensen, 2019) GA	7.4±0.9
GB-GA (Jensen, 2019) GA	15.76±5.71
GA (here)	12.61±0.81
GA + D (here)	13.31±0.63
GA + D(t) (here)	20.72±3.14

GA-Dは報告された文献モデルより高い最大の penalized logP スコアを達成する（例: DNN 併用で 20.72 ± 3.14、D なしで 13.31 ± 0.63）。
識別器主導の適応ペナルティは、過剰に表現される高性能系をペナルティ化して停滞を減らし、探索を奨励する。
時変適応ペナルティは従来法を超えて max J(m) をさらに改善し、強力な探索能力を示す。
K-meansクラスタリングとPCA分析は高い J(m )に関連する設計クラスとルールを明らかにする。
本手法は制約付き最適化と同時の logP および QED 最適化をサポートし、タスク間の適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。