[论文解读] Semidefinite relaxations for certifying robustness to adversarial examples
本文引入一个半正定规划(SDP)松弛,用以证明任意 ReLU 网络对对抗扰动的鲁棒性,显示出比先前的基于 LP 的松弛更紧的界,并在若干网络上给出具有实际意义的非空洞证书。
Despite their impressive performance on diverse tasks, neural networks fail catastrophically in the presence of adversarial inputs---imperceptibly but adversarially perturbed versions of natural inputs. We have witnessed an arms race between defenders who attempt to train robust networks and attackers who try to construct adversarial examples. One promise of ending the arms race is developing certified defenses, ones which are provably robust against all attackers in some family. These certified defenses are based on convex relaxations which construct an upper bound on the worst case loss over all attackers in the family. Previous relaxations are loose on networks that are not trained against the respective relaxation. In this paper, we propose a new semidefinite relaxation for certifying robustness that applies to arbitrary ReLU networks. We show that our proposed relaxation is tighter than previous relaxations and produces meaningful robustness guarantees on three different "foreign networks" whose training objectives are agnostic to our proposed relaxation.
研究动机与目标
- 说明对抗性扰动下需要获得认证防御的动机
- 开发一个凸的、基于 SDP 的松弛,用以上界 ReLU 网络对抗扰动下的最坏情况损失的上界
- 证明 SDP 松弛在真实网络上能提供比基于 LP 的松弛更紧的鲁棒性证书
- 表明用各种鲁棒目标训练的网络在 SDP 方法下仍可获得有意义的证书
- 提供将 SDP 证书应用于多层网络的实用指南,并与并行的验证方法进行比较
提出的方法
- 通过将 ReLU 表示为线性和二次约束,将在 ReLU 与攻击约束下的最坏情形边际最大化问题建模为一个 QCQP
- 通过引入单项式矩阵 P = vv^T 并强制 P ≽ 0 以及线性/二次约束,将 QCQP 松弛为一个半正定规划(SDP)
- 通过堆叠逐层的 ReLU 约束和中间激活的传播界限,将单层 SDP 推广到多层网络
- 利用简单区间算术推导中间激活的界限,以收紧 SDP 的 (l^i, u^i) 界限
- 将 SDP 指引与 LP 松弛进行比较,强调对激活的联合推理及在多单元情形下更紧的界限
- 在 MNIST 上对由 Grad-NN、LP-NN、PGD-NN 训练的网络进行实验,在 ε = 0.1 的 l∞ 范数攻击下对鲁棒性进行认证
- 利用基于区间的界限获得实用证书(SDP-cert),并与 LP-cert 和 Grad-cert 进行比较
实验结果
研究问题
- RQ1相比于 LP 松弛,基于 SDP 的松弛是否能收紧 ReLU 网络的鲁棒性证书?
- RQ2SDP 证书是否能在并非专门为认证训练的网络上提供有意义的非空洞保证?
- RQ3SDP 松弛如何扩展到多层网络,中间激活界限如何影响紧致性?
- RQ4在标准基准(MNIST)上,SDP 的可证 Safeguards 与同时进行的验证方法相比如何?
主要发现
| 网络 | SDP-证书 | LP-证书 | Grad-证书 |
|---|---|---|---|
| Grad-NN | 20% | 97% | 35% |
| LP-NN | 20% | 22% | 93% |
| PGD-NN | 18% | 100% | n/a |
- SDP-cert 在所有测试网络上都给出非空洞的鲁棒性证书,包括在 ε = 0.1 下四层经过 PGD 训练的模型,其界限为 18%
- 在 Grad-NN 和 LP-NN 上,SDP-cert 提升或达到先前已知的认证界限(例如 Grad-NN 的不可证比例由 35% 降到 20%;LP-NN 的不可证比例由 22% 降到 20%)
- LP-cert 在多层网络上常常不如 SDP-cert,原因是它无法捕捉激活的联合相互作用
- 对于所测试的网络,SDP-cert 始终获得比 LP-cert 和 Grad-cert 更小的不可证份额(例如 Grad-NN:20% vs. 97% vs. 35%;LP-NN:20% vs. 22% vs. 93%;PGD-NN:18% vs. 100% vs. n/a)
- 几何解释表明 SDP 通过跨层耦合激活来收紧界限,与将单元独立处理的 LP 不同
- 计算时间:在报告的实验中,SDP 求解约每个样本 25 分钟左右,而 LP 约 5 分钟
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。