[论文解读] On the Minimal Adversarial Perturbation for Deep Neural Networks With Provable Estimation Error
本文提出了两种轻量级的根求解策略,用于近似深度神经网络中最小对抗扰动,并为计算距离相对于真实最小距离的误差提供了可证明的理论估计。该方法通过在半径为σ的邻域内控制误差,实现了鲁棒性验证,实验验证表明,对于接近决策边界的输入,对抗攻击在估计边界的下方无法成功。
Although Deep Neural Networks (DNNs) have shown incredible performance in perceptive and control tasks, several trustworthy issues are still open. One of the most discussed topics is the existence of adversarial perturbations, which has opened an interesting research line on provable techniques capable of quantifying the robustness of a given input. In this regard, the Euclidean distance of the input from the classification boundary denotes a well-proved robustness assessment as the minimal affordable adversarial perturbation. Unfortunately, computing such a distance is highly complex due the non-convex nature of DNNs. Despite several methods have been proposed to address this issue, to the best of our knowledge, no provable results have been presented to estimate and bound the error committed. This paper addresses this issue by proposing two lightweight strategies to find the minimal adversarial perturbation. Differently from the state-of-the-art, the proposed approach allows formulating an error estimation theory of the approximate distance with respect to the theoretical one. Finally, a substantial set of experiments is reported to evaluate the performance of the algorithms and support the theoretical findings. The obtained results show that the proposed strategies approximate the theoretical distance for samples close to the classification boundary, leading to provable robustness guarantees against any adversarial attacks.
研究动机与目标
- 解决现有方法在估计深度神经网络中最小对抗扰动时缺乏理论误差边界的不足。
- 开发一种计算高效的最小对抗距离近似方法,支持可证明的鲁棒性保证。
- 推导一种分析性误差估计理论,量化近似距离与真实最小距离之间的差异。
- 通过实验估计误差边界成立的邻域半径σ,从而实现对靠近分类边界的输入的ϵ-鲁棒性验证。
提出的方法
- 提出两种根求解策略——最近边界(CB)和二分法(BM),通过求解到分类边界的距离来计算近似最小对抗扰动。
- 引入一种基于分类器一阶和二阶导数的新奇正则性系数,用于量化决策边界的线性程度,并定义邻域半径σ。
- 推导出在半径为σ的管状邻域内,近似距离t(x,l)与真实最小距离d(x,l)之间的理论误差边界。
- 使用全局搜索方法(内点法)作为真实值,对MNIST、FMNIST、CIFAR10和GTSRB四个数据集上的近似距离进行验证。
- 通过PGD、FGM、DF和DDN等攻击方法,经验估计σ∗为:在该距离范围内,任何幅度低于t(x)/ρ∗的对抗攻击均无法成功,从而确定σ∗。
- 将边界t(x)/ρ∗用作对抗扰动幅度的下限,验证在估计的σ∗邻域内,任何攻击均无法在该阈值以下成功。
实验结果
研究问题
- RQ1我们能否为深度神经网络中近似最小对抗扰动计算提供理论误差边界?
- RQ2在决策边界周围多大范围内,近似距离与真实最小距离之间的误差可被可证明地限制?
- RQ3我们能多准确地估计邻域半径σ,使得近似距离的误差保持有界?
- RQ4所提出的方法是否能仅通过近似距离和可证明的误差边界,验证靠近决策边界的输入的ϵ-鲁棒性?
主要发现
- 所提出的CB和二分法在近似真实最小对抗距离时,具有可证明的误差边界,尤其在靠近决策边界的输入上表现更优。
- 理论误差边界在半径为σ的管状邻域内成立,其中σ由基于分类器一阶和二阶导数的正则性系数确定。
- σ∗的经验估计得到验证:在MNIST和GTSRB上,对于σ∗范围内的输入,任何对抗攻击均未在t(x)/ρ∗以下成功,证实了理论边界的正确性。
- 在FMNIST和CIFAR10上,σ∗的估计准确性较低,各有一个样本的攻击在边界以下成功,表明经验σ∗估计的泛化能力存在局限。
- 该方法实现了高效的ϵ-鲁棒性验证:若将t(x)/ρ∗用作下限,则任何对抗攻击均无法在该幅度以下成功,从而提供可证明的鲁棒性保证。
- 结果表明,所提出方法可对任何幅度被估计为t(x)/ρ∗的对抗攻击提供可证明的鲁棒性,尤其在输入位于估计的σ∗邻域内时效果显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。