[论文解读] Provably Minimally-Distorted Adversarial Examples
本论文使用形式化验证(Reluplex)在可证明的最小扭曲下构造对抗样本,并评估攻击与防御,显示 CW 攻击接近最优,且对小型网络在 MNIST 上的对抗训练显著提升鲁棒性。
The ability to deploy neural networks in real-world, safety-critical systems is severely limited by the presence of adversarial examples: slightly perturbed inputs that are misclassified by the network. In recent years, several techniques have been proposed for increasing robustness to adversarial examples --- and yet most of these have been quickly shown to be vulnerable to future attacks. For example, over half of the defenses proposed by papers accepted at ICLR 2018 have already been broken. We propose to address this difficulty through formal verification techniques. We show how to construct provably minimally distorted adversarial examples: given an arbitrary neural network and input sample, we can construct adversarial examples which we prove are of minimal distortion. Using this approach, we demonstrate that one of the recent ICLR defense proposals, adversarial retraining, provably succeeds at increasing the distortion required to construct adversarial examples by a factor of 4.2.
研究动机与目标
- 以形式化验证为基础,激励对防御进行超越经验结果的鲁棒性评估。
- 开发在所选度量下可证明具有最小扭曲的对抗样本生成方法。
- 评估一种现代攻击(Carlini & Wagner)在最小扭曲基准上的有效性。
- 在小型网络上使用可验证的保证评估对抗训练(Madry 等人)对鲁棒性的影响。
提出的方法
- 使用 Reluplex,一个针对带 ReLU 的网络的可靠且完备求解器,来验证在距离 delta 内不存在对抗输入。
- 通过用 ReLU 表示绝对值,将 L1 距离编码进 Reluplex。
- 对 delta 进行二分搜索,以找到可证明的最小扭曲对抗样本。
- 将攻击者生成的样本(CW、BIM/FGM)与可证明的最小扭曲样本进行比较,以评估近最优性。
- 通过验证小型 MNIST 网络上的鲁棒性提升来评估对抗训练。
- 讨论对小型网络的局限性以及通过改进验证工具实现可扩展性的潜力。
实验结果
研究问题
- RQ1迭代攻击(如 CW)与可证明的最小扭曲对抗样本之间的差距有多大?
- RQ2对抗训练(Madry 等人)是否能在小型网络上可证明地提升对对抗样本的鲁棒性?
- RQ3基于 Reluplex 的验证是否可以扩展到 L1 距离以及超出 L-infinity 的扭曲度度量?
- RQ4可证明保证能为紧凑模型上的当前与未来攻击/防御效果提供哪些洞见?
主要发现
| Number of Points | CW Distorted | Minimally Distorted Adversarial Example | Percent Improvement | |
|---|---|---|---|---|
| N, L_infinity | 35/35 | 0.042 | 0.039 | 12.319 |
| N_bar, L_infinity | 35/35 | 0.180 | 0.165 | 11.153 |
- 在小型 MNIST 模型上,CW 攻击在 L-infinity 下的扭曲程度差距最小扭曲样本的差距在 11.6% 之内。
- 在小型 MNIST 模型的 L1 下,CW 攻击的对抗样本距离最小扭曲样本的差距为 6.2%,受终止次数限制。
- 对抗训练在所测试的的小型网络上将到最小扭曲对抗样本的距离平均提高约 4.23 倍(在 L-infinity 下从 0.039 提升到 0.165)。
- 对于各种目标,可以找到可证明的最小扭曲对抗样本,从而在小型网络上在保证性条件下评估防御效果。
- 在报告的实验中,Reluplex 在对抗训练后的网络上对 L-infinity(81/90)和 L1(64/90)终止率更高。
- 研究表明迭代攻击接近最优,但常因梯度下降中的局部极小值而未能达到真实最小值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。