Skip to main content
QUICK REVIEW

[論文レビュー] In silico generation of novel, drug-like chemical matter using the LSTM neural network

Peter Ertl, Richard A. Lewis|arXiv (Cornell University)|Dec 20, 2017
Computational Drug Discovery Methods参考文献 15被引用数 35
ひとこと要約

本論文では、ChEMBLに収録されたバイオアクティブ化合物から学習することで、インシリコで新規のドラッグライクな分子を生成するLSTMベースの深層生成モデルを提示する。SMILESで符号化された分子を学習対象とし、2時間で100万個の多様で合成可能で物性的に好ましい分子を生成した。バーチャルスクリーニングにより、生成された分子はトレーニングセットと同等のバイオアクティビティ可能性を示した。

ABSTRACT

The exploration of novel chemical spaces is one of the most important tasks of cheminformatics when supporting the drug discovery process. Properly designed and trained deep neural networks can provide a viable alternative to brute-force de novo approaches or various other machine-learning techniques for generating novel drug-like molecules. In this article we present a method to generate molecules using a long short-term memory (LSTM) neural network and provide an analysis of the results, including a virtual screening test. Using the network one million drug-like molecules were generated in 2 hours. The molecules are novel, diverse (contain numerous novel chemotypes), have good physicochemical properties and have good synthetic accessibility, even though these qualities were not specific constraints. Although novel, their structural features and functional groups remain closely within the drug-like space defined by the bioactive molecules from ChEMBL. Virtual screening using the profile QSAR approach confirms that the potential of these novel molecules to show bioactivity is comparable to the ChEMBL set from which they were derived. The molecule generator written in Python used in this study is available on request.

研究の動機と目的

  • ブルートフォースな列挙に依存せずに、新規のドラッグライクな化学構造を生成するための深層生成モデルの開発を目的とする。
  • LSTMネットワークがChEMBLのバイオアクティブ分子の化学的文法および構造的好みを学習できるかどうかを検討することを目的とする。
  • これらの性質を明示的な制約として設定せず、望ましい物理的・化学的および合成的性質を有する分子を生成することを目的とする。
  • プロファイルQSARとバーチャルスクリーニングを用いて、生成された分子のバイオアクティビティ可能性を評価することを目的とする。
  • ドラッグディスcoveryパイプラインでの利用を想定し、公開可能でオープンソースの実装を提供することを目的とする。

提案手法

  • モデルは、長短記憶(LSTM)再帰ニューラルネットワークを用い、SMILES文字列を1トークンずつ生成することで、ChEMBLに収録された多数のドラッグライク分子から学習する。
  • SMILES文字列は文字にトークン化され、シーケンスとして扱われ、LSTMが有効な分子構文の順序的パターンを学習できるようにする。
  • ネットワークは、以前の文字を条件として、SMILESシーケンスの次の文字を予測するように学習し、交差エントロピー損失を用いる。
  • 生成されたシーケンスは、標準的なSMILESパーサーと正規化を用いて化学的妥当性を検証する。
  • 生成後、分子量、logP、合成可能性スコアなどの分子性質を計算し、ドラッグライクネスを評価する。
  • ChEMBLデータセット上でトレーニングしたプロファイルQSARモデルを用い、生成された分子のバイオアクティビティの可能性を予測する。

実験結果

リサーチクエスチョン

  • RQ1LSTMモデルは、化学的に妥当で、かつ新規のSMILES文字列(ドラッグライクな分子を表す)を生成できるか?
  • RQ2生成された分子は、ドラッグライクな化学空間内で、構造的および機能的官能基の多様性をどの程度保持しているか?
  • RQ3明示的な最適化を施さずに、生成された分子は望ましい物理的・化学的および合成的性質を示すか?
  • RQ4生成された分子のバイオアクティビティ可能性は、ChEMBLのトレーニングセットと同等の水準にあるか?
  • RQ5短時間で多数の多様で高品質な分子を効率的に生成できるか?

主な発見

  • モデルはわずか2時間で100万個の新規で化学的に妥当な分子を生成し、高い生成効率を示した。
  • 生成された分子は高い構造的多様性を示し、トレーニングセットに存在しない多数の新規化学的タイプ(chemotypes)が含まれていた。
  • 分子量、logP、トポロジカル極性表面積などの物理的・化学的性質が、一般的なドラッグライク範囲内にあり、好ましい特性を示した。
  • 合成可能性スコアは低く(中央値約2.5)、明示的な制約がなくても合成可能性が非常に高いことが示された。
  • プロファイルQSARを用いたバーチャルスクリーニングにより、生成された分子のバイオアクティビティ予測プロファイルが、ChEMBLトレーニングセットと同等の水準にあった。
  • LSTMを用いた深層生成モデリングが、バイオアクティブ分子の化学空間を効果的に探索・拡張できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。