Skip to main content
QUICK REVIEW

[论文解读] Adversarial camera stickers: A physical camera-based attack on deep learning systems

Juncheng Li, Frank R. Schmidt|arXiv (Cornell University)|Mar 21, 2019
Adversarial Robustness in Machine Learning参考文献 18被引用 61
一句话总结

本文提出一种对照相机镜头进行精心设计贴纸的对抗性攻击,可以在深度图像分类器中实现普遍的、定向的错误分类,在 ImageNet 上以及在现实世界的相机设置中得到验证。

ABSTRACT

Recent work has documented the susceptibility of deep learning systems to adversarial examples, but most such attacks directly manipulate the digital input to a classifier. Although a smaller line of work considers physical adversarial attacks, in all cases these involve manipulating the object of interest, e.g., putting a physical sticker on an object to misclassify it, or manufacturing an object specifically intended to be misclassified. In this work, we consider an alternative question: is it possible to fool deep classifiers, over all perceived objects of a certain type, by physically manipulating the camera itself? We show that by placing a carefully crafted and mainly-translucent sticker over the lens of a camera, one can create universal perturbations of the observed images that are inconspicuous, yet misclassify target objects as a different (targeted) class. To accomplish this, we propose an iterative procedure for both updating the attack perturbation (to make it adversarial for a given classifier), and the threat model itself (to ensure it is physically realizable). For example, we show that we can achieve physically-realizable attacks that fool ImageNet classifiers in a targeted fashion 49.6% of the time. This presents a new class of physically-realizable threat models to consider in the context of adversarially robust machine learning. Our demo video can be viewed at: https://youtu.be/wUVmL33Fx54

研究动机与目标

  • 建立并形式化一个物理可实现的威胁模型,攻击相机与场景之间的光学路径。
  • 开发一个通用的、相机级扰动,能够在不改动对象本身的情况下对广泛观测对象进行错误分类。
  • 联合优化扰动与物理可实现性约束,生成不显眼、可打印的贴纸。
  • 在数字仿真(ImageNet)和使用打印贴纸的相机镜头的现实世界实验中评估攻击。

提出的方法

  • 建立扰动模型,通过 alpha-blended 点来模拟半透明相机镜头贴纸的效果:pi0(x;θ) 的参数为(颜色 γ,中心 (i^(c),j^(c)),半径 r,最大透明度 αmax,衰减 β)。
  • 构建 K 个点来形成一个通用扰动 π(x;θ) = π0(•;θK) ◦ … ◦ π0(x;θ1)。
  • 通过收集带有/不带点的成对图像并优化以重现观测到的扰动,拟合扰动模型以符合物理可实现的约束,目标是结构相似性(SSIM)。
  • 将扰动限制在一个实际可制造的集合内:最多 10 个点、固定 αmax、β、r,以及一个离散颜色集合 Γ;优化随后选择点中心和颜色。
  • 对单一类别 y⋆ 进行定向普遍攻击,使其误分类到目标类别 ytarget,通过最大化损失差来实现:E[ℓ(f(π(x)), y⋆) − ℓ(f(π(x)), ytarget)].
  • 采用贪心坐标下降(在点的位置和颜色上)并随后进行基于梯度的微调,以构建对抗性贴纸。

实验结果

研究问题

  • RQ1对抗性扰动能否通过修改相机光学而非对象来物理实现?
  • RQ2是否可以创建一个在图像和角度上固定的通用扰动,当通过相机贴纸应用时能触发定向错误分类?
  • RQ3物理可实现性约束(点的大小、不透明度、颜色集合)如何影响现实世界与数字数据集上的攻击效果?
  • RQ4在 ImageNet 和真实相机视频中,对多种目标类别的基于相机的扰动的实证愚弄率是多少?

主要发现

  • 一个物理可实现的、普遍性的相机扰动可以在现实世界的视频中将目标对象错误分类为所选定的目标类别(5 个类别/目标组合的平均定向愚弄率为 52%)。
  • 在真实视频中,该攻击将针对性的情况下的分类准确率降至约 27%,并产生显著的定向错误分类率。
  • 数字(ImageNet)实验中,使用 6 点扰动的不同目标愚弄率,具体取决于类别/目标和点数,大致在 18%–49.6% 之间;增加点数会提高定向愚弄率。
  • 单个小贴纸即可在不同观看角度和对象尺度下产生一致的错误分类,体现了一种新的现实世界对抗性鲁棒性威胁模型。
  • 使用打印点,扰动空间被约束为低频、不显眼的模式,但仍达到有意义的攻击率。
  • 该研究首次在现实世界演示了相机为基础的对抗性攻击,强调了在机器学习系统中考虑物理威胁的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。