QUICK REVIEW

[论文解读] A New Defense Against Adversarial Images: Turning a Weakness into a Strength

Tao Yu, Shengyuan Hu|arXiv (Cornell University)|Oct 16, 2019

Adversarial Robustness in Machine Learning被引用 61

一句话总结

这篇论文将对抗扰动重新表述为可检测的特征，并提出一种两标准检测器（对高斯噪声的鲁棒性以及与决策边界的接近度），在白盒攻击下仍然有效，在ImageNet上实现显著的检测率。

ABSTRACT

Natural images are virtually surrounded by low-density misclassified regions that can be efficiently discovered by gradient-guided search --- enabling the generation of adversarial images. While many techniques for detecting these attacks have been proposed, they are easily bypassed when the adversary has full knowledge of the detection mechanism and adapts the attack strategy accordingly. In this paper, we adopt a novel perspective and regard the omnipresence of adversarial perturbations as a strength rather than a weakness. We postulate that if an image has been tampered with, these adversarial directions either become harder to find with gradient methods or have substantially higher density than for natural images. We develop a practical test for this signature characteristic to successfully detect adversarial attacks, achieving unprecedented accuracy under the white-box setting where the adversary is given full knowledge of our detection mechanism.

研究动机与目标

强调自然图像的双重特性：与决策边界的接近性以及对随机噪声的鲁棒性。
开发一种在具备防御白盒知识的情况下也能检测对抗扰动的实用测试。
在大规模数据集（ImageNet）和标准基准（CIFAR-10）上评估所提出的检测器。
开放代码以实现可重复性并建立白盒对抗检测的基线。

提出的方法

定义两个检测标准：C1（对随机高斯噪声的鲁棒性）和C2（通过梯度步长对对抗噪声的易感性）。
构建对抗性损失，明确通过混合目标（L星）包含项L1和L2，以及附加项L3和L4来在BPDA下击败C2，从而绕过C1和C2。
使用对检测器进行优化的白盒攻击者，并设定阈值以拒绝不满足所有标准的输入。
在ImageNet（ResNet-101）和CIFAR-10（VGG-19）上，在L∞约束下使用PGD/CW攻击进行评估。
与基线检测器如特征挤压（Feature Squeezing）和伪迹（Artifacts）进行比较；进行消融和灰盒分析。

实验结果

研究问题

RQ1检测器是否能够利用自然图像周围对抗性扰动的内在分布来可靠地区分良性与对抗输入，即使在白盒设置下？
RQ2两个正交的标准（对随机噪声的鲁棒性和与决策边界的接近度）是否共同足以约束攻击者，从而减少成功的对抗检测逃避？
RQ3在强白盒攻击下，检测器在大规模数据集（ImageNet）和较小数据集（CIFAR-10）上的表现如何？
RQ4在真实系统中部署此类检测器的实际成本（运行时间）和限制是什么？

主要发现

检测器在强白盒L∞攻击下，在20%的假阳性率下，在ImageNet上的最坏情况检测率高达49%。
仅C1对白盒攻击不足，但与C2（C2t/C2u）结合时，检测器在许多情形下能可靠地区分真实与对抗图像。
在ImageNet上，组合标准在多种攻击配置下超越基线（Feature Squeezing和Artifacts），灰盒攻击仍有挑战但可在非平凡率检测到。
由于数据集属性和模型鲁棒性，CIFAR-10结果弱于ImageNet，但仍比基线有改进。
检测器的计算时间显著，C2评估主导，需要迭代的基于梯度的攻击，凸显安全性与效率之间的权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。