[论文解读] Constrained Bayesian Optimization for Automatic Chemical Design
本文将基于变分自编码器潜在空间的贝叶斯优化重新表述为一个受约束的优化问题,以提高生成分子的有效性和质量。受约束的贝叶斯优化比无约束基线产生显著更多的药物样分子并获得更高的目标分数。
Automatic Chemical Design is a framework for generating novel molecules with optimized properties. The original scheme, featuring Bayesian optimization over the latent space of a variational autoencoder, suffers from the pathology that it tends to produce invalid molecular structures. First, we demonstrate empirically that this pathology arises when the Bayesian optimization scheme queries latent points far away from the data on which the variational autoencoder has been trained. Secondly, by reformulating the search procedure as a constrained Bayesian optimization problem, we show that the effects of this pathology can be mitigated, yielding marked improvements in the validity of the generated molecules. We posit that constrained Bayesian optimization is a good approach for solving this class of training set mismatch in many generative tasks involving Bayesian optimization over the latent space of a variational autoencoder.
研究动机与目标
- 激励自动化化学设计并识别训练集不匹配是导致解码无效的来源。
- 提出一种受约束的贝叶斯优化公式,以维持解码的有效性。
- 展示使用具约束感知的获取函数可以提高分子有效性和新颖性。
- 展示在药物设计和材料设计任务中药物相似性及性质分数的改进。
提出的方法
- 使用基于 SMILES 的变分自编码器对分子进行编码/解码。
- 定义将标准化学指标(logP、QED)与惩罚项(SA、环结构惩罚)相结合的目标函数。
- 形式化受约束的贝叶斯优化:在 Pr(C(z)) ≥ 1−δ 的约束下最大化 f(z)。
- 采用带约束的期望改进(EIC)作为获取函数。
- 训练一个二元约束模型(BNN)以预测潜在点的解码有效性并在约束中使用它。
- 使用并行 Kriging-Believer BO 和批量大小为 50 的设置在 20 次迭代中评估性能。
实验结果
研究问题
- RQ1将潜在空间搜索进行约束是否会提高解码分子的有效性,相较于无约束的 BO?
- RQ2在标准度量下,受约束的 BO 如何影响生成的药物样分子的质量和新颖性?
- RQ3受约束的 BO 能否推广到药物发现之外的材料设计目标(例如功率转换效率)?
主要发现
- 受约束的 BO 在尝试中解码为药物样分子的比例超过 80%,而无约束基线不到 5%。
- 受约束的 BO 产生更多的唯一分子,并在药物相似性指标(LogP 复合、QED 复合、QED)上获得更高的目标分数。
- 在五个分割中,受约束的 BO 分子在所考虑目标的训练集分数分布的 90th–100th 百分位内。
- 在材料设计实验中,受约束的 BO 生成的分子在 PCE 的平均分数高于训练数据的第 90 百分位。
- 总体而言,受约束的 BO 显著提高了有效性,并且通常提升分子质量,相较于原始的无约束方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。