[論文レビュー] Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks
この論文は、リカレントニューラルネットワークがSMILESベースの表現を学習して薬物様の有効な分子を生成できること、既知の活性物質の小規模セットでファインチューニングすることで、標的活性に富む集団を生み出し、ターゲット予測スコアラーを用いたデノボ設計サイクルを完成させることを示している。
In de novo drug design, computational strategies are used to generate novel molecules with good affinity to the desired biological target. In this work, we show that recurrent neural networks can be trained as generative models for molecular structures, similar to statistical language models in natural language processing. We demonstrate that the properties of the generated molecules correlate very well with the properties of the molecules used to train the model. In order to enrich libraries with molecules active towards a given biological target, we propose to fine-tune the model with small sets of molecules, which are known to be active against that target. Against Staphylococcus aureus, the model reproduced 14% of 6051 hold-out test molecules that medicinal chemists designed, whereas against Plasmodium falciparum (Malaria) it reproduced 28% of 1240 test molecules. When coupled with a scoring function, our model can perform the complete de novo drug design cycle to generate large sets of novel molecules for drug discovery.
研究の動機と目的
- SMILES表現とRNNを用いて分子構造の生成モデルを学習し、有効で薬物様な分子を生成する。
- 事前学習済みモデルを、既知の活性化合物の小規模セットでファインチューニングして、特定ターゲットに焦点を合わせたライブラリを生成することを実証する。
- 生成された分子がMLベースのターゲット予測モデルを用いて特定のターゲットに対して活性が予測されるかを評価する。
- 生成とスコアリングを組み合わせ、活性化合物で再学習することで、設計–合成–試験の反復的な創薬デザインサイクルを模擬する。
提案手法
- 分子をSMILES文字列として表現し、SMILES文法をリカレントニューラルネットワークでモデル化する。
- 入力には1-hotエンコーディングを用い、3層LSTMを各層1024ユニットで使用する;学習にはADAMと勾配クリッピングを適用する。
- 一般的な化学言語を学ぶために、ChEMBL由来のSMILESデータセット(1.4百万分子)で事前学習を行う。
- 特定のターゲット用に小さな活性セットで事前学習済みモデルをファインチューニングし、各エポック後に新規分子をサンプルする。
- 選択したターゲットに対する活性をスコアリングするため、ターゲット予測モデル(ECFP4指紋を用いたGBT)を適用する。
- 訓練済みモデルからシンボルごとにサンプリングして大規模ライブラリを生成し、訓練データに対する特性を評価する。
実験結果
リサーチクエスチョン
- RQ1Can an RNN trained on SMILES learn valid, drug-like molecule structures?
- RQ2Does transfer learning from a large general molecular dataset to small target-specific actives yield focussed, active-enriched libraries?
- RQ3How well do generated molecules reproduce known actives for specific targets, and what is the enrichment over random sampling?
- RQ4Can the combination of generation and a target-prediction scorer enable a complete de novo design cycle (design–synthesis–test loop)?
- RQ5key_findings subqueries?
- RQ6key_findings
- RQ7table_headers
- RQ8table_rows
主な発見
- A general model trained on 1.4M ChEMBL molecules can generate valid, drug-like SMILES with high validity after large-scale sampling (97.7% valid).
- Fine-tuning on target actives yields measurable enrichment and reproduction: for Staphylococcus aureus, 14% reproduction of 6051 test actives after 1000-actives fine-tuning; for Plasmodium falciparum, 28% reproduction of 1240 test actives after training on 1239 actives with 128,256 generated molecules (EOR 66.9).
- For Pf malaria, even with 100 training actives, 7% reproduction and EOR 19.0 are achievable; with pIC50>9, 11% reproduction and EOR 35.7 are observed.
- For 5-HT2A receptor targeting, fine-tuning after a few epochs yields around 50% predicted actives after four epochs.
- Pretraining is crucial for good performance on hard targets (e.g., Staph. aureus); models trained from scratch perform worse than pretrained-and-finetuned models.
- In a design–synthesis–test style cycle, iterating generation, scoring, and retraining produced 60,988 unique molecules predicted as active, demonstrating the method’s potential to run complete de novo design workflows.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。