[論文レビュー] Molecular Generation with Recurrent Neural Networks (RNNs)
本稿では、SMILESで符号化された化合物を学習データとして用いることで、長短記憶(LSTM)ユニットを備えた再帰的ニューラルネットワーク(RNN)を用いて、化学的に妥当な新しい分子を生成する手法を提案している。モデルは、学習データと類似した分子の性質分布を達成しており、生成されたドラッグライク分子の80%以上が新規かつ合成可能であることが、合成感受性スコアおよび逆合成解析によって確認された。
The potential number of drug like small molecules is estimated to be between 10^23 and 10^60 while current databases of known compounds are orders of magnitude smaller with approximately 10^8 compounds. This discrepancy has led to an interest in generating virtual libraries using hand crafted chemical rules and fragment based methods to cover a larger area of chemical space and generate chemical libraries for use in in silico drug discovery endeavors. Here it is explored to what extent a recurrent neural network with long short term memory cells can figure out sensible chemical rules and generate synthesizable molecules by being trained on existing compounds encoded as SMILES. The networks can to a high extent generate novel, but chemically sensible molecules. The properties of the molecules are tuned by training on two different datasets consisting of fragment like molecules and drug like molecules. The produced molecules and the training databases have very similar distributions of molar weight, predicted logP, number of hydrogen bond acceptors and donors, number of rotatable bonds and topological polar surface area when compared to their respective training sets. The compounds are for the most cases synthesizable as assessed with SA score and Wiley ChemPlanner.
研究の動機と目的
- RNNにLSTMセルを用いることで、明示的な規則ベースの制約なしに、SMILES文字列から化学的に妥当で新規の分子を生成できるかを調査すること。
- 生成された分子の分子性質分布(例:分子量、logP、回転可能な結合数など)が、学習データのそれとどの程度一致するかを評価すること。
- Wiley ChemPlannerなどの逆合成計画ツールを用いて、生成された分子の合成可能性を合成感受性(SA)スコアと併せて評価すること。
- 生成された分子が訓練データセットに対してどの程度真正の新規性を示しているかを評価し、訓練データへの過学習の兆候があるかどうかを特定すること。
提案手法
- Zinc12データベース(クリーンなフラグメントおよびドラッグライクサブセット)から得られたSMILES文字列を、開始(!)および終了(E)トークンを追加し、ワンホットエンコーディングによってベクトル化した。
- Kerasを用い、Theanoバックエンドを搭載した深層RNNアーキテクチャを実装した。このアーキテクチャは、256ユニットのLSTM層を2つ含み、その後にReLU活性化関数を用いた2層のフィードフォワードネットワークが続く。
- 正則化のための入力ドロップアウト(0.1)を適用し、100,000個のSMILESを含むチャンク単位で、ミニバッチサイズ512で学習を実施。検証損失に基づく早期停止を用いた。
- 状態保持型のサンプリングモデルを用い、逐次的に予測された文字をネットワークに再帰的に入力することで、新しいシーケンスを生成した。
- 生成された分子と学習データセットとの間で、分子量、logP、水素結合供与体/受容体数、トポロジカル極性表面積などの分子性質を比較した。
- 生成化合物の合成可能性を、合成感受性(SA)スコアおよびWiley ChemPlannerによる逆合成計画解析を用いて評価した。
実験結果
リサーチクエスチョン
- RQ1LSTMセルを備えたRNNは、明示的な規則ベースの制約なしに、SMILES文字列から化学的に妥当で新規の分子を学習して生成できるか?
- RQ2生成された分子の分子性質分布が、学習データのそれとどの程度一致するか?
- RQ3合成感受性スコアおよび逆合成計画法によって評価した場合、生成された分子はどの程度合成可能であるか?
- RQ4生成された分子は、訓練セットに対してどの程度真正の新規性を示しており、訓練データへの過学習の兆候があるか?
- RQ5訓練データを絞り込むことで、特定の性質プロファイルを持つ分子を生成できるようにモデルをチューニングできるか?
主な発見
- フラグメント類似およびドラッグライクデータセットの両方において、生成された分子の63%および83%が訓練データセットに存在しない新規分子であった。これは、潜在的な過学習の兆候があるものの、顕著な新規性を示していることを示している。
- 生成された分子の分子量、logP、水素結合供与体/受容体数、回転可能な結合数、トポロジカル極性表面積といった分子性質の分布は、いずれも訓練データセットと類似していた。
- 生成された分子の合成感受性(SA)スコアは、中程度から低めの範囲にあり、カタログ化合物と同等の水準であり、高い合成可能性を示している。
- Wiley ChemPlannerによる逆合成解析では、多数の生成化合物に対して妥当な合成経路が同定されたが、2つの分子についてはいかなる経路も得られなかった。
- モデルは過学習の兆候を示しており、生成された分子の大部分が訓練データセットに存在していた。これは、訓練集合とテスト集合の化学的空間が互いに類似している可能性を示唆している。
- 生成された分子が望ましい性質プロファイルを持つことを示すモデルの能力は、優れた化合物を再学習データとして用いることで、インシリコ・ドラッグディスcoveryにおける反復的最適化の可能性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。