Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Adversarial Attacks on Deep Feature-based Retrieval with GAN

Guoping Zhao, Mingyu Zhang|arXiv (Cornell University)|Jul 12, 2019
Adversarial Robustness in Machine Learning参考文献 42被引用 24
一句话总结

该论文提出UAA-GAN,一种无监督生成对抗网络,可生成难以察觉的、与查询相关的对抗性扰动,以攻击基于深度特征的图像检索系统。通过在无标签数据上进行训练,UAA-GAN生成细微且逼真的扰动,显著降低检索性能——例如在ResNet50上使mAP降至0.01以下,同时保持与原始查询图像的视觉相似性。

ABSTRACT

Studies show that Deep Neural Network (DNN)-based image classification models are vulnerable to maliciously constructed adversarial examples. However, little effort has been made to investigate how DNN-based image retrieval models are affected by such attacks. In this paper, we introduce Unsupervised Adversarial Attacks with Generative Adversarial Networks (UAA-GAN) to attack deep feature-based image retrieval systems. UAA-GAN is an unsupervised learning model that requires only a small amount of unlabeled data for training. Once trained, it produces query-specific perturbations for query images to form adversarial queries. The core idea is to ensure that the attached perturbation is barely perceptible to human yet effective in pushing the query away from its original position in the deep feature space. UAA-GAN works with various application scenarios that are based on deep features, including image retrieval, person Re-ID and face search. Empirical results show that UAA-GAN cripples retrieval performance without significant visual changes in the query images. UAA-GAN generated adversarial examples are less distinguishable because they tend to incorporate subtle perturbations in textured or salient areas of the images, such as key body parts of human, dominant structural patterns/textures or edges, rather than in visually insignificant areas (e.g., background and sky). Such tendency indicates that the model indeed learned how to toy with both image retrieval systems and human eyes.

研究动机与目标

  • 研究尽管对局部扰动具有鲁棒性,基于深度特征的图像检索系统在对抗攻击下的脆弱性。
  • 开发一种无监督方法,无需访问目标检索模型的梯度或类别标签,即可生成有效的对抗性样本。
  • 确保生成的对抗性扰动在视觉上难以察觉,同时在破坏检索性能方面高度有效。
  • 评估对抗性样本在不同深度特征提取器和池化机制之间的可迁移性。
  • 分析生成对抗性扰动中判别器在提高扰动真实感和感知质量方面的作用。

提出的方法

  • UAA-GAN采用条件生成对抗网络(GAN)框架,其中生成器仅使用无标签图像进行训练,生成与查询相关的扰动。
  • 生成器被训练以最小化扰动后查询的深度特征表示与目标特征空间之间的距离,从而使其远离原始邻居。
  • 使用判别器来强制实现感知上的真实性,鼓励扰动集中在显著或纹理丰富的区域(如人体部位、边缘)而非背景区域。
  • 通过对抗损失与特征空间对比损失的组合,端到端训练该方法,以确保扰动的不可察觉性与攻击有效性。
  • 生成器为每个输入查询生成定制化扰动,使得无需重新训练即可应用于任意查询图像。
  • 该方法在多个检索任务上进行了评估:图像检索(Oxford5k、Paris)、行人重识别(Market1501、DukeMTMC-ReID)以及人脸搜索(FaceScrub)

实验结果

研究问题

  • RQ1对抗性攻击能否有效应用于基于深度特征的图像检索系统?这些系统由于采用全局池化和不变表示,其鲁棒性高于分类模型。
  • RQ2无监督方法能否在无需模型梯度或类别标签访问的情况下,为检索系统生成对抗性样本?
  • RQ3所生成的对抗性样本是否在不同深度特征提取器和池化函数之间具有可迁移性?
  • RQ4在GAN架构中引入判别器如何影响扰动的感知质量和真实感?
  • RQ5扰动在多大程度上利用人类感知机制,聚焦于显著图像区域而非视觉上不重要的区域?

主要发现

  • UAA-GAN显著降低检索性能:在Market1501和DukeMTMC-ReID上,ResNet50的mAP降至0.010以下,表明系统近乎完全失效。
  • 即使在更具鲁棒性的MGN模型上,Market1501的mAP降至0.116,DukeMTMC-ReID的mAP降至0.045,证明该攻击在不同架构中均具有效力。
  • 在人脸搜索任务中,SphereFace的Rank-1准确率从0.713降至0.215,Rank-10准确率低于0.5,表明检索几乎完全失败。
  • UAA-GAN中的判别器通过将扰动集中在显著区域(如身体部位、边缘)提升了扰动质量,相比无判别器的GAN,视觉突变更小。
  • 对抗性样本在相同网络架构内的可迁移性较强(如VGG-MAC到VGG-RMAC),mAP从0.788降至0.515。
  • 在不同架构间的可迁移性较弱但依然有效,当使用VGG-GeM攻击基于ResNet的模型时,mAP从0.860降至0.449。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。