QUICK REVIEW

[论文解读] Guiding Deep Molecular Optimization with Genetic Exploration

Sungsoo Ahn, Junsu Kim|arXiv (Cornell University)|Jul 4, 2020

Computational Drug Discovery Methods参考文献 69被引用 26

一句话总结

本文提出遗传专家引导学习（GEGL），一种新颖的深度学习框架，通过将领域特定的遗传算子（突变和杂交）作为模仿学习的监督信号，提升分子生成性能。通过训练神经网络模仿经遗传探索生成的高性能分子，GEGL 实现了最先进性能，包括惩罚性 logP 得分为 31.40——显著优于先前方法——并在 GuacaMol 基准测试的三项任务中取得完美得分。

ABSTRACT

De novo molecular design attempts to search over the chemical space for molecules with the desired property. Recently, deep learning has gained considerable attention as a promising approach to solve the problem. In this paper, we propose genetic expert-guided learning (GEGL), a simple yet novel framework for training a deep neural network (DNN) to generate highly-rewarding molecules. Our main idea is to design a "genetic expert improvement" procedure, which generates high-quality targets for imitation learning of the DNN. Extensive experiments show that GEGL significantly improves over state-of-the-art methods. For example, GEGL manages to solve the penalized octanol-water partition coefficient optimization with a score of 31.40, while the best-known score in the literature is 27.22. Besides, for the GuacaMol benchmark with 20 tasks, our method achieves the highest score for 19 tasks, in comparison with state-of-the-art methods, and newly obtains the perfect score for three tasks.

研究动机与目标

为解决在全新分子设计中高效探索庞大化学空间的挑战。
将领域特定的遗传算子整合到深度神经网络训练中，以提升分子优化性能。
通过利用专家生成的高奖励分子，降低分子生成的样本复杂度。
通过结构化、知识驱动的探索方式，提升深度生成模型的性能。

提出的方法

引入一种遗传专家策略，对深度神经网络生成的分子应用突变和杂交操作，以生成高质量、高奖励的候选分子。
训练一个深度神经网络作为学徒策略，通过模仿学习来复现专家策略的高性能分子。
使用最大奖励优先队列来存储并保留最具奖励的分子，防止训练过程中的灾难性遗忘。
将生成过程建模为强化学习问题，其中奖励为期望的分子性质得分。
对深度神经网络生成的分子应用遗传算子，以生成多样化、化学上合理的候选分子，并提升其性质得分。
将专家策略的输出整合到训练循环中，以迭代方式优化学徒策略的生成能力。

实验结果

研究问题

RQ1遗传算子能否有效用于指导深度神经网络在分子生成中的训练？
RQ2将专家引导探索与模仿学习相结合，如何提升全新分子设计中的样本效率与性能？
RQ3深度神经网络在多大程度上能通过模仿学习复现遗传专家策略的性能？
RQ4通过遗传算子整合领域特定知识，是否优于纯粹端到端的深度学习方法在分子优化中的表现？
RQ5所提出的框架能否在涵盖复杂约束的多样化分子设计任务中实现泛化？

主要发现

GEGL 实现了 31.40 的惩罚性辛醇-水分配系数得分，显著优于最佳先前方法（27.22）。
在 GuacaMol 基准测试中，GEGL 在 20 项任务中的 19 项取得最高分，其中三项为新创完美得分。
消融研究证实，深度神经网络学徒与遗传专家策略均不可或缺，移除任一均导致性能下降。
在训练初期，专家策略的优先队列（$\mathcal{Q}_{\mathtt{ex}}$）持续生成比学徒策略队列（$\mathcal{Q}$）更高质量的分子。
随着时间推移，学徒策略逐渐超越专家策略的性能，表明知识蒸馏过程有效。
使用最大奖励优先队列显著提升了样本效率与训练迭代过程中的性能保留能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。