Skip to main content
QUICK REVIEW

[论文解读] Fast Feature Fool: A data independent approach to universal adversarial perturbations

Konda Reddy Mopuri, Utsav Garg|ePrints@IISc (Indian Institute of Science)|Jul 18, 2017
Adversarial Robustness in Machine Learning参考文献 15被引用 105
一句话总结

本论文提出一种数据无关的方法,通过在多层次对特征进行过饱和来生成能够欺骗CNN的通用对抗扰动,具有跨架构与跨数据集的转移性且不使用目标数据。

ABSTRACT

State-of-the-art object recognition Convolutional Neural Networks (CNNs) are shown to be fooled by image agnostic perturbations, called universal adversarial perturbations. It is also observed that these perturbations generalize across multiple networks trained on the same target data. However, these algorithms require training data on which the CNNs were trained and compute adversarial perturbations via complex optimization. The fooling performance of these approaches is directly proportional to the amount of available training data. This makes them unsuitable for practical attacks since its unreasonable for an attacker to have access to the training data. In this paper, for the first time, we propose a novel data independent approach to generate image agnostic perturbations for a range of CNNs trained for object recognition. We further show that these perturbations are transferable across multiple network architectures trained either on same or different data. In the absence of data, our method generates universal adversarial perturbations efficiently via fooling the features learned at multiple layers thereby causing CNNs to misclassify. Experiments demonstrate impressive fooling rates and surprising transferability for the proposed universal perturbations generated without any training data.

研究动机与目标

  • 通过解决通用扰动中的数据依赖性来提升对抗鲁棒性。
  • 提出一种数据无关的优化,能够欺骗CNN在多层上的特征。
  • 演示扰动在跨架构和跨数据的转移性。
  • 显示该方法相对于数据相关方法具有更快的收敛速度。

提出的方法

  • 优化扰动 delta,使其最大化CNN中多层卷积层的特征激活。
  • 定义损失为 Loss = -log( product over i of l_i(delta) ), 其中 l_i(delta) 是经过 ReLU 后第 i 层的平均激活。
  • 用 L8-范数约束 ||delta||_8 < xi 以确保不可感知性(实验中 xi = 10)。
  • 通过梯度优化(Adam)更新 delta”,不更新网络参数,也不使用训练数据。
  • 对卷积(以及选定的 inception)层的激活进行定向,以制造导致错误分类的扰动。
  • 在优化过程中定期对扰动进行裁剪/重新缩放,以保持不可感知性约束。

实验结果

研究问题

  • RQ1不访问目标数据就能制造的扰动是否能让CNN在大多数输入上被骗?
  • RQ2数据无关的通用扰动是否能跨在相同或不同数据分布上训练的不同网络架构转移?
  • RQ3同一架构对数据偏移在不同数据集间,数据无关扰动的转移程度如何?
  • RQ4在欺骗率和收敛时间方面,数据无关方法相较于数据相关的通用扰动有何差异?

主要发现

  • 该方法产生的数据无关通用扰动,可以在高概率下欺骗多个网络。
  • 扰动在同一数据集上训练的跨架构中转移,平均转移欺骗率在测试网络间约为 41%。
  • 扰动也在不同数据分布上训练的网络之间转移,效果显著,跨数据集转移中优于数据相关方法。
  • 用较小网络的扰动初始化优化为较深网络带来可测量的提升。
  • 数据无关方法的收敛时间显著快于数据相关的通用扰动(例如几十秒级别 vs 千秒)。
  • 视觉检查显示被扰动的图像在感知上仍不可辨别,同时导致错误分类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。