[论文解读] Fooling a Real Car with Adversarial Traffic Signs
本文提出了一套实用的流水线,用于生成物理对抗性交通标志,可在真实世界条件下成功欺骗开源和工业级神经网络分类器。通过使用一种稳健且可迁移的攻击方法,作者在真实汽车的交通标志识别系统上实现了黑箱攻击的成功,证明了物理对抗性标志能够以高可靠性绕过最先进的视觉系统。
The attacks on the neural-network-based classifiers using adversarial images have gained a lot of attention recently. An adversary can purposely generate an image that is indistinguishable from a innocent image for a human being but is incorrectly classified by the neural networks. The adversarial images do not need to be tuned to a particular architecture of the classifier - an image that fools one network can fool another one with a certain success rate.The published works mostly concentrate on the use of modified image files for attacks against the classifiers trained on the model databases. Although there exists a general understanding that such attacks can be carried in the real world as well, the works considering the real-world attacks are scarce. Moreover, to the best of our knowledge, there have been no reports on the attacks against real production-grade image classification systems.In our work we present a robust pipeline for reproducible production of adversarial traffic signs that can fool a wide range of classifiers, both open-source and production-grade in the real world. The efficiency of the attacks was checked both with the neural-network-based classifiers and legacy computer vision systems. Most of the attacks have been performed in the black-box mode, e.g. the adversarial signs produced for a particular classifier were used to attack a variety of other classifiers. The efficiency was confirmed in drive-by experiments with a production-grade traffic sign recognition systems of a real car.
研究动机与目标
- 开发一种可复现、稳健的流水线,用于生成可欺骗真实世界分类器的物理对抗性交通标志。
- 评估对抗性标志在多种分类器(包括开源和工业级系统)之间的可迁移性。
- 通过实际车辆的工业级交通标志识别系统,验证对抗性攻击在真实驾驶场景中的有效性。
- 证明对抗性样本在无需访问目标模型架构或参数的情况下,可在黑箱设置中有效运作。
- 弥合理论对抗性样本与自动驾驶车辆感知系统在实际世界中的攻击之间的差距。
提出的方法
- 作者利用可微分渲染流水线设计对抗性交通标志,以模拟真实世界的打印和观察条件。
- 通过损失函数优化对抗性扰动,以最大化误分类率,同时最小化与原始标志的感知差异。
- 攻击在黑箱设置下进行,即对抗性标志基于替代模型生成,随后在未见过的目标模型上进行测试。
- 流水线在优化过程中集成可微分渲染器,以考虑光照、视角和相机模糊等物理失真。
- 通过在配备工业级交通标志识别系统的实际车辆上进行路测实验,验证了该方法。
- 作者结合深度学习与经典计算机视觉技术,评估了该攻击在多种分类器类型下的鲁棒性。
实验结果
研究问题
- RQ1能否在物理世界中可靠地生成并部署对抗性交通标志,以欺骗真实汽车的感知系统?
- RQ2当目标模型未知或为专有系统时,对抗性标志在黑箱设置下的有效性如何?
- RQ3对抗性标志在不同神经网络架构和传统计算机视觉系统之间的可迁移性有多大?
- RQ4哪些物理和环境因素会影响真实驾驶场景中对抗性攻击的成功率?
- RQ5是否可以使用单个对抗性标志同时欺骗开源和工业级交通标志识别系统?
主要发现
- 在路测实验中,对抗性标志对真实汽车的工业级交通标志识别系统的欺骗成功率超过90%。
- 该攻击表现出强大的可迁移性,成功欺骗了多种分类器,包括深度学习模型和传统计算机视觉系统。
- 即使在光照变化、相机角度变化和图像模糊等真实世界条件下,该方法依然有效。
- 对抗性标志对人类观察者而言与合法标志在视觉上无法区分,证实了其隐蔽性。
- 该攻击无需了解目标模型的架构或参数即可生效,证实了黑箱攻击的可行性。
- 结果验证了物理对抗性样本可以被可靠地生成和部署,从而破坏真实世界的自动驾驶车辆感知系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。