Skip to main content
QUICK REVIEW

[论文解读] ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity?

Mostapha Benhenda|arXiv (Cornell University)|Aug 28, 2017
Computational Drug Discovery Methods参考文献 15被引用 107
一句话总结

本论文定义了生成分子内部化学多样性的度量,并在 D2 活性和药物可药性上测试 RL 和 ORGAN 模型,发现两种方法都未能为目标属性再现自然多样性。

ABSTRACT

Generating molecules with desired chemical properties is important for drug discovery. The use of generative neural networks is promising for this task. However, from visual inspection, it often appears that generated samples lack diversity. In this paper, we quantify this internal chemical diversity, and we raise the following challenge: can a nontrivial AI model reproduce natural chemical diversity for desired molecules? To illustrate this question, we consider two generative models: a Reinforcement Learning model and the recently introduced ORGAN. Both fail at this challenge. We hope this challenge will stimulate research in this direction.

研究动机与目标

  • 量化使用基于 Tanimoto 的度量的生成分子的内部化学多样性。
  • 提出一个挑战:非平凡的生成模型是否能在特定属性上再现自然多样性?
  • 比较强化学习(RL)与 ORGAN 在两个化学属性上的方法:D2 活性和药物可药性。
  • 评估满足某一属性的生成子集在多样性方面是否仍可与自然分子相媲美。

提出的方法

  • 将内部多样性 I(A) 定义为集合 A 中所有对间的平均 Tanimoto 距离。
  • 使用 Morgan 指纹和 RDKit 计算 Tanimoto 相似性与距离。
  • 评估两种生成范式:带有 LSTM 生成器并基于活性或药物可药性的奖励的强化学习(RL);在此基础上增加判别器 REST (Dφ) 的 ORGAN,以及带 λ 的混合奖励。
  • 在随机子集 ZINC(15k)上对预训练的 MLP 模型进行训练,然后再通过 RL 或 ORGAN 进行额外若干轮微调。
  • 对于 ORGAN,将判别器输出与任务特定奖励混合,通过 R(Y1:T)=λDφ(Y1:T)+(1−λ)P/activity 或 L(Y1:T) 来实现药物可药性。
  • 计算 Prop. Valid SMILES、Avg. Pa(活性概率)、Avg. internal diversity、以及活性>0.8 或药物可药性>0.8 的比例,以及在这些高分子子集中的内部多样性。

实验结果

研究问题

  • RQ1一个非平凡的生成模型是否能够产生与自然多样性相匹配的输出内部多样性以对应给定化学属性?
  • RQ2在优化 D2 活性或药物可药性时,RL 与 ORGAN 是否能产生多样的样本?
  • RQ3提高属性满足度(例如 P(active)>0.8,L>0.8)是否必然降低内部多样性?
  • RQ4在保持目标属性的同时, ORGAN 能否比 RL 更好地保持多样性?

主要发现

  • 在经过 30 个轮次后,RL 提高了目标活性,但高活性子集的内部多样性显著下降。
  • 经过 60 个轮次,活性更高,但高活性集合的多样性仍然很低。
  • 对于 ORGAN,λ=0.04 在 30 轮后相对于 RL 在高活性样本上提高了多样性,但多样性仍比自然多样性低出若干数量级;到 60 轮时,多样性趋向 RL 的水平下降。
  • 对于药物可药性,RL 在 200 轮后获得高有效性但高-L 子集的多样性为零,而 ORGAN 在 200 轮、λ=0.8 时获得更高的有效性和一些多样性,但在高-L 子集方面仍远低于 ZINC 的自然多样性。
  • 总体而言,RL 与 ORGAN 都未能在目标属性上再现自然的化学多样性, ORGAN 稍好但仍远低于自然多样性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。