Skip to main content
QUICK REVIEW

[论文解读] Dr.VAE: Drug Response Variational Autoencoder

Ladislav Rampášek, Daniel Hidru|arXiv (Cornell University)|Jun 26, 2017
Machine Learning in Materials Science参考文献 7被引用 23
一句话总结

Dr.VAE 提出了一种半监督变分自编码器框架,通过使用治疗前和治疗后基因表达数据,联合建模药物诱导的基因表达扰动和治疗反应结果。通过学习一个解耦的潜在表征,该表征同时编码了生物学扰动效应和整体药物反应,Dr.VAE 在 19 种药物上的 AUC-ROC 指标上相比最先进基准提升了 3–11%,AUPR 指标提升了 2–30%。

ABSTRACT

We present two deep generative models based on Variational Autoencoders to improve the accuracy of drug response prediction. Our models, Perturbation Variational Autoencoder and its semi-supervised extension, Drug Response Variational Autoencoder (Dr.VAE), learn latent representation of the underlying gene states before and after drug application that depend on: (i) drug-induced biological change of each gene and (ii) overall treatment response outcome. Our VAE-based models outperform the current published benchmarks in the field by anywhere from 3 to 11% AUROC and 2 to 30% AUPR. In addition, we found that better reconstruction accuracy does not necessarily lead to improvement in classification accuracy and that jointly trained models perform better than models that minimize reconstruction error independently.

研究动机与目标

  • 使用稀疏、高维的基因表达数据,提升癌症细胞系中的药物反应预测性能。
  • 在统一的深度生成模型中整合治疗前和治疗后基因表达数据(扰动对)与药物反应结果。
  • 开发一种半监督框架,利用标记的反应数据和未标记的扰动数据,以提升预测性能。
  • 探究是否通过联合建模扰动和反应,能够获得优于分别优化重建和分类的分类性能。

提出的方法

  • Dr.VAE 使用具有共享编码器和解码器的深度变分自编码器,将治疗前和治疗后基因表达映射到共享的潜在空间。
  • 模型在潜在空间中引入一个随机线性函数,将药物诱导的扰动效应建模为从治疗前到治疗后状态的变换。
  • 采用随机梯度变分贝叶斯(SGVB)和逆自回归流(IAF)实现高效的后验近似和改进的推理。
  • 通过联合目标函数进行训练,以平衡基因表达的重建和药物反应结果的预测。
  • 半监督扩展使模型能够利用未标记的治疗前数据,以改善潜在表征的学习。
  • 使用 10 折交叉验证在 19 种具有可用扰动和反应数据的药物上对模型进行评估。

实验结果

研究问题

  • RQ1深度生成模型能否联合学习基因表达扰动和药物反应结果的潜在表征,从而提升预测准确性?
  • RQ2联合训练扰动建模和反应分类是否优于分别训练重建和分类?
  • RQ3基因表达的高重建精度是否足以提升药物反应分类性能?
  • RQ4无监督扰动数据能否提升半监督药物反应预测模型的性能?

主要发现

  • Dr.VAE 在 19 种药物上相比已发表基准,AUC-ROC 提升 3–11%,AUPR 提升 2–30%,展现出最先进性能。
  • PertVAE(无监督组件)在 8 种药物中,对其中 5 种具有足够细胞系数据的药物,能以统计显著相关性(p ≤ 0.001)预测治疗后基因表达。
  • 仅具备高重建性能不足以保证分类准确性的提升,表明潜在空间具有预测性而非仅压缩性作用。
  • 联合训练扰动建模与反应分类的性能优于分别训练重建与分类。
  • 使用 100 个随机潜在变量的模型在表达能力与泛化能力之间达到最佳平衡,优于小维度潜在空间中的 PCA。
  • 潜在空间不仅捕捉了重建信息,还包含生物上相关的特征,这一点通过在数据有限且噪声高的情况下仍能提升分类性能得到验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。