[论文解读] Certified Defenses for Adversarial Patches
本文提出首个基于区间界限传播(IBP)的对抗性补丁攻击的认证防御,显示在白盒设置下以往的补丁防御可以被破解,并提出训练方法以获得对方形补丁的可证明鲁棒性(并扩展到稀疏攻击和形状迁移).
Adversarial patch attacks are among one of the most practical threat models against real-world computer vision systems. This paper studies certified and empirical defenses against patch attacks. We begin with a set of experiments showing that most existing defenses, which work by pre-processing input images to mitigate adversarial patches, are easily broken by simple white-box adversaries. Motivated by this finding, we propose the first certified defense against patch attacks, and propose faster methods for its training. Furthermore, we experiment with different patch shapes for testing, obtaining surprisingly good robustness transfer across shapes, and present preliminary results on certified defense against sparse attacks. Our complete implementation can be found on: https://github.com/Ping-C/certifiedpatchdefense.
研究动机与目标
- 推动对现实世界中物理补丁攻击对视觉系统的鲁棒性研究。
- 揭示现有补丁防御在白盒攻击下的弱点。
- 基于区间界限传播(IBP)开发针对补丁攻击的认证防御。
- 提出更快的IBP训练变体,并评估跨补丁形状的迁移性以及对稀疏攻击的鲁棒性。
提出的方法
- 将IBP扩展到补丁攻击情景,以对所有可能的补丁位置和扰动进行鲁棒性认证。
- 定义认证条件以及计算对抗准确率下界(认证准确度)的方法。
- 引入训练时的技巧以实现稳定的IBP训练,并设计一个epsilon时间表以逐步增大扰动。
- 提出两种高效的认证-训练方案(随机补丁和引导补丁),以避免随图像尺寸的平方级扩大。
- 通过修改第一层界限以考虑前k个像素的扰动,将IBP扩展以对抗稀疏攻击。
- 评估对方形补丁训练的模型对非方形形状以及各种数据集的迁移能力。
实验结果
研究问题
- RQ1我们能否在可证明的边界内对基于补丁的对手进行神经网络鲁棒性认证?
- RQ2现有的补丁防御在白盒攻击下的表现如何,是否可以通过认证训练超越它们?
- RQ3获得针对补丁攻击的紧致认证所需的实际训练策略是什么?
- RQ4鲁棒性是否能在不同补丁形状之间迁移?对于稀疏攻击,鲁棒性表现如何?
主要发现
- 现有的补丁防御(DW、LGS)在白盒攻击下脆弱,可以通过将防御纳入反向传播或通过BPDA来击败。
- 基于IBP的可证防御在对抗补丁攻击方面可以达到显著的认证准确度;例如,MNIST 2x2补丁在选定模型下达到91.6%的认证准确度,CIFAR-10 5x5补丁达到24.9%的认证准确度。
- 全部补丁的认证训练在无限计算下可获得最佳认证准确度,但随机或引导补丁训练在效率和可扩展性上显著更好。
- 方形补丁训练的模型对其他形状(矩形、线、菱形、平行四边形)的鲁棒性迁移通常会带来较小的认证准确度损失,尽管对于像矩形这类像素数更大的形状,性能会下降。
- 对于稀疏攻击(k个非相邻像素),IBP训练的模型在MNIST和CIFAR-10上实现了具有竞争力的认证准确度,在MNIST上优于一些稀疏基线。
- 更大的模型可以提升认证准确度(例如,CIFAR使用大模型在5x5补丁下达到约30.3%的认证准确度)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。