Skip to main content
QUICK REVIEW

[论文解读] With Friends Like These, Who Needs Adversaries?

Saumya Jetley, Nicholas A. Lord|arXiv (Cornell University)|Jul 11, 2018
Adversarial Robustness in Machine Learning被引用 18
一句话总结

本文揭示了深度卷积网络的高准确率与对抗脆弱性实际上是同一枚硬币的两面:两者均源于网络对输入图像空间中特定、高度方向性的特征的依赖。关键发现是,用于准确分类的相同方向,也正是对抗攻击的主要路径,表明性能与鲁棒性之间存在内在权衡。

ABSTRACT

The vulnerability of deep image classification networks to adversarial attack is now well known, but less well understood. Via a novel experimental analysis, we illustrate some facts about deep convolutional networks for image classification that shed new light on their behaviour and how it connects to the problem of adversaries. In short, the celebrated performance of these networks and their vulnerability to adversarial attack are simply two sides of the same coin: the input image-space directions along which the networks are most vulnerable to attack are the same directions which they use to achieve their classification performance in the first place. We develop this result in two main steps. The first uncovers the fact that classes tend to be associated with specific image-space directions. This is shown by an examination of the class-score outputs of nets as functions of 1D movements along these directions. This provides a novel perspective on the existence of universal adversarial perturbations. The second is a clear demonstration of the tight coupling between classification performance and vulnerability to adversarial attack within the spaces spanned by these directions. Thus, our analysis resolves the apparent contradiction between accuracy and vulnerability. It provides a new perspective on much of the prior art and reveals profound implications for efforts to construct neural nets that are both accurate and robust to adversarial attack.

研究动机与目标

  • 解决一个悖论:为何高度准确的深度网络对对抗攻击如此脆弱。
  • 探究决定分类性能的方向是否也是对抗脆弱性的主要来源。
  • 证明通过预处理(如下采样)实现的鲁棒性提升是表面现象,因为网络在剩余的有效分类方向上依然脆弱。
  • 提供一个几何框架,将特征空间方向、分类决策与对抗鲁棒性联系起来。

提出的方法

  • 作者将深度网络的类别得分输出作为沿特定图像空间方向的一维扰动函数进行分析,使用均值归一化的图像数据。
  • 通过激活梯度的奇异值分解(SVD)识别并可视化与特定类别强相关的方向分量(d_j)。
  • 应用DeepFool算法生成对抗性扰动,并分析其在包含重采样单元的网络变体之间的可迁移性。
  • 比较具有和不具有下采样预处理的网络之间的对抗鲁棒性,调整扰动范数以评估可迁移性。
  • 证明即使经过预处理,网络在剩余的有效分类方向上仍对攻击保持脆弱。
  • 对下采样后的扰动执行SVD,以重建修改后网络的有效对抗子空间,表明鲁棒性并未得到根本改善。

实验结果

研究问题

  • RQ1深度网络在对抗攻击下最脆弱的方向,是否与用于准确分类的方向相同?
  • RQ2预处理(如下采样)在多大程度上真正提升了对抗鲁棒性,还是仅将脆弱性转移到其他方向?
  • RQ3能否有效将原始全分辨率网络的对抗性攻击转移到具有重采样单元的修改版本网络上?缩放扰动范数如何影响这一过程?
  • RQ4那些使用简化、方向性响应进行分类的网络,是否因固有地牺牲了鲁棒性而付出代价?
  • RQ5由于依赖输入空间中特定的高敏感度方向,是否存在分类准确率与对抗鲁棒性之间的根本性权衡?

主要发现

  • 深度网络的类别得分输出作为沿特定图像空间方向(d_j)的扰动函数时,通常在大范围内呈现近似对称且单调的特性,表明其决策机制简单且具有方向性。
  • 与特定类别(如“青蛙”)强相关的方向d_j,也正是在扰动时导致误分类的方向,揭示了对抗脆弱性与分类性能均根植于相同的特征。
  • 基于下采样的预处理单元虽能降低但无法消除对抗脆弱性,因为网络在剩余的有效分类方向上仍易受攻击。
  • 通过调整原始网络对抗扰动的ℓ₂-范数,可有效将其迁移至修改后的网络,即使经过预处理,仍能恢复高欺骗率。
  • 对下采样后的DeepFool扰动进行SVD,可恢复修改后网络中所有有效分类与对抗方向,证明鲁棒性并未得到根本改善。
  • 任何通过抑制对某些方向响应而获得的鲁棒性增益,均以降低准确率为代价,证实了性能与鲁棒性之间存在内在权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。