QUICK REVIEW

[论文解读] Certified Defenses against Adversarial Examples

Aditi Raghunathan, Jacob Steinhardt|arXiv (Cornell University)|Jan 29, 2018

Adversarial Robustness in Machine Learning参考文献 55被引用 339

一句话总结

该论文引入一种可认证、可训练的对两层神经网络的对抗样本防御，利用半正定松弛来认证鲁棒性，并通过对偶训练目标联合优化鲁棒性证明与模型参数。

ABSTRACT

While neural networks have achieved high accuracy on standard image classification benchmarks, their accuracy drops to nearly zero in the presence of small adversarial perturbations to test inputs. Defenses based on regularization and adversarial training have been proposed, but often followed by new, stronger attacks that defeat these defenses. Can we somehow end this arms race? In this work, we study this problem for neural networks with one hidden layer. We first propose a method based on a semidefinite relaxation that outputs a certificate that for a given network and test input, no attack can force the error to exceed a certain value. Second, as this certificate is differentiable, we jointly optimize it with the network parameters, providing an adaptive regularizer that encourages robustness against all attacks. On MNIST, our approach produces a network and a certificate that no attack that perturbs each pixel by at most ε= 0.1 can cause more than 35% test error.

研究动机与目标

在 l_infinity 范围内为对抗扰动下的鲁棒分类提供动机。
开发一个可行的证明来上界具有一个隐藏层的网络在最坏情况下的对抗损失。
提供一个基于证明的可训练正则化项，以在学习过程中促进鲁棒性。
展示一个可实现的方法，在 MNIST 上获得可证明鲁棒的网络。
与替代界和先前工作进行比较，以评估有效性和可扩展性。

提出的方法

定义 margin f^i(x) = f^i(x) - f^y(x) 对于真实类别 y 的类别 i。
通过对对抗路径积分梯度并在扰动球内对 ||∇f(·)||_1 进行上界，推导对最坏攻击 f(A(x)) 的上界。
将该界限专门化到两层神经网络，得到二次规划（QP）界限 f_QP(x)。
将非凸 QP 放宽为半正定规划（SDP）f_SDP(x)，获得一个凸的、可计算的证明。
利用对偶性将 SDP 内部极大化转化为可微分目标， enables 使用随机梯度方法进行训练（方程式 21）。
可选地与谱半径和 Frobenius 界进行比较（f_spectral、f_frobenius），并讨论训练选择。

实验结果

研究问题

RQ1我们是否可以为具有一个隐藏层的神经网络计算一个可认证的最坏情况下对抗损失的上界？
RQ2该证明是否可微并可用作训练目标以产生鲁棒模型？
RQ3在 MNIST 数据分类时，与其他界相比，基于 SDP 的证明有多紧？
RQ4通过 SDP 证明进行训练是否能在强攻击下提升实际鲁棒性，超过传统防御？
RQ5与基于 LP 的或其他可验证方法相比，SDP 方法在可扩展性和鲁棒性方面如何？

主要发现

基于 SDP 的证明在对抗损失上给出比 Frobenius 和谱界更紧的上界，适用于测试的网络。
用 SDP 证明进行训练可产生鲁棒性和可证明保证更好的网络，特别是 SDP-NN 在 MNIST 的 ε=0.1 时显示出有意义的鲁棒性。
SDP-NN 在 MNIST 上实现了较低的观测 PGD 错误（15%），SDP 界为 35%、LP 界为 99%，显示互补界和网络结构的影响。
仅进行对抗训练（AT-NN）可提升对某些攻击的鲁棒性，但未能像基于 SDP 的训练那样提供更紧的证明。
训练过程中的对偶证明与完全求解的 SDP 证明高度吻合，能够在优化过程中实现实际的鲁棒性跟踪。
与相关工作中的四层 CNN 相比，两层 SDP 方法在其架构约束内提供了有竞争力的鲁棒性；更深的网络可能进一步改善界。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。