Skip to main content
QUICK REVIEW

[论文解读] Adversarial examples for generative models

Jernej Kos, Ian Fischer|arXiv (Cornell University)|Feb 22, 2017
Adversarial Robustness in Machine Learning参考文献 19被引用 32
一句话总结

本文提出针对深度生成模型的对抗性攻击,特别是变分自编码器(VAEs)和VAE-GANs,通过操纵潜在表示实现。提出三种攻击方法——基于分类器的、基于VAE损失的以及潜在空间优化方法,证明了对抗性样本可在保持不可察觉的同时扭曲重建结果,其中潜在空间攻击在扰动大小与攻击成功率之间实现了最佳平衡。

ABSTRACT

We explore methods of producing adversarial examples on deep generative models such as the variational autoencoder (VAE) and the VAE-GAN. Deep learning architectures are known to be vulnerable to adversarial examples, but previous work has focused on the application of adversarial examples to classification tasks. Deep generative models have recently become popular due to their ability to model input data distributions and generate realistic examples from those distributions. We present three classes of attacks on the VAE and VAE-GAN architectures and demonstrate them against networks trained on MNIST, SVHN and CelebA. Our first attack leverages classification-based adversaries by attaching a classifier to the trained encoder of the target generative model, which can then be used to indirectly manipulate the latent representation. Our second attack directly uses the VAE loss function to generate a target reconstruction image from the adversarial example. Our third attack moves beyond relying on classification or the standard loss for the gradient and directly optimizes against differences in source and target latent representations. We also motivate why an attacker might be interested in deploying such techniques against a target generative network.

研究动机与目标

  • 探究诸如VAEs和VAE-GANs等深度生成模型是否对对抗性样本具有脆弱性,将该概念从分类任务扩展至其他场景。
  • 识别攻击者可通过在编码过程中操纵潜在表示来利用生成模型的实际威胁模型。
  • 开发并评估新型攻击方法,生成能够引起生成模型误重建的对抗性输入。
  • 从扰动幅度、重建保真度和计算成本等方面,比较不同攻击策略的有效性与效率。

提出的方法

  • 利用附加在训练好的VAE编码器上的分类器,通过基于分类的攻击生成对抗性样本,利用潜在空间作为攻击面。
  • 将VAE重建损失($\mathcal{L}_{\mathrm{VAE}}$)作为替代目标函数,优化使重建误差最大化的对抗性样本。
  • 通过最小化源码与目标码之间的$L_2$距离,直接优化潜在表示,从而实现对生成输出的精确控制。
  • 应用基于梯度的优化方法,生成保持低$L_2$和RMSD范数但引起显著重建偏移的对抗性输入。
  • 在MNIST、SVHN和CelebA数据集上评估攻击效果,使用$L_2$范数、RMSD和重建结果的视觉检查等多种指标。
  • 通过测量生成1,000个对抗性样本所需时间,比较攻击效率,突出准确率与计算成本之间的权衡。

实验结果

研究问题

  • RQ1能否成功生成针对VAEs和VAE-GANs等深度生成模型的对抗性样本?
  • RQ2在不增加可察觉扰动的前提下,哪些攻击策略最有效地操纵生成模型中的潜在表示?
  • RQ3在扰动大小、重建质量与计算效率方面,基于分类器、基于VAE损失和潜在空间优化的攻击方法有何差异?
  • RQ4在编码与解码由不同参与方执行的场景下,哪些实际威胁模型可合理化对生成模型的对抗性攻击?
  • RQ5对抗性样本在造成显著重建失败的同时,其不可察觉性在多大程度上得以保持?

主要发现

  • 潜在空间攻击在MNIST上实现了最低的平均$L_2$范数(2.96)和RMSD(0.105),在SVHN上分别为2.80和0.051,表明其扰动最为隐蔽且高效。
  • $\mathcal{L}_{\mathrm{VAE}}$攻击速度最慢,每个优化步骤均需完整重建,生成1,000个对抗性样本在SVHN上平均耗时895秒。
  • 在CelebA数据集上,$\mathcal{L}_{\mathrm{VAE}}$攻击在$\lambda = 0.75$时达到$L_2$范数8.98和RMSD 0.081,成功生成目标人脸的高质量重建。
  • 基于分类器的攻击在MNIST上$L_2$范数最高(3.36),效果最差,表明其扰动更大且更易察觉。
  • 在所有数据集上,潜在攻击在最小化扰动大小的同时最大化重建失真方面,均优于基于分类器和$\mathcal{L}_{\mathrm{VAE}}$的攻击。
  • 在SVHN上,$L_2$优化的潜在攻击实现了平均$L_2$范数2.80和RMSD 0.051,显著优于$\mathcal{L}_{\mathrm{VAE}}$攻击(2.36和0.043)在感知隐蔽性方面的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。