Skip to main content
QUICK REVIEW

[论文解读] Feature Denoising for Improving Adversarial Robustness

Cihang Xie, Yuxin Wu|arXiv (Cornell University)|Dec 9, 2018
Adversarial Robustness in Machine Learning参考文献 26被引用 86
一句话总结

本文提出将特征去噪块(基于非局部均值和其他滤波器)集成至CNN,并通过对抗训练提升对ImageNet上强白盒和黑盒攻击的鲁棒性,取得了state-of-the-art结果并赢得CAAD 2018 defense。

ABSTRACT

Adversarial attacks to image classification systems present challenges to convolutional networks and opportunities for understanding them. This study suggests that adversarial perturbations on images lead to noise in the features constructed by these networks. Motivated by this observation, we develop new network architectures that increase adversarial robustness by performing feature denoising. Specifically, our networks contain blocks that denoise the features using non-local means or other filters; the entire networks are trained end-to-end. When combined with adversarial training, our feature denoising networks substantially improve the state-of-the-art in adversarial robustness in both white-box and black-box attack settings. On ImageNet, under 10-iteration PGD white-box attacks where prior art has 27.9% accuracy, our method achieves 55.7%; even under extreme 2000-iteration PGD white-box attacks, our method secures 42.6% accuracy. Our method was ranked first in Competition on Adversarial Attacks and Defenses (CAAD) 2018 --- it achieved 50.6% classification accuracy on a secret, ImageNet-like test dataset against 48 unknown attackers, surpassing the runner-up approach by ~10%. Code is available at https://github.com/facebookresearch/ImageNet-Adversarial-Training.

研究动机与目标

  • 说明对抗性扰动会在网络特征中引入噪声并降低预测性能。
  • 开发端到端可训练的去噪块,在中间层抑制特征噪声。
  • 系统性评估在ImageNet上对强白盒和黑盒攻击的鲁棒性。
  • 比较多种去噪操作与架构选择,以识别有效的设计。
  • 评估在使用去噪块时对抗鲁棒性与净图(未被攻击时)准确度之间的权衡。

提出的方法

  • 在ResNet骨干网络中,在选定的残差块之后插入去噪块(在 res2、res3、res4、res5 之后)。
  • 在去噪块内使用去噪操作,如非局部均值、双边过滤、均值滤波和中值滤波。
  • 将去噪操作用1x1卷积和残差连接包裹,以将去噪后的特征与输入特征融合。
  • 在大规模ImageNet上进行端到端对抗训练,使用PGD(epsilon=16,30次迭代),并采用128-GPU分布式设置。
  • 将表现最佳的去噪变体确定为带高斯权重的非局部均值;进行消融实验以研究1x1层和残差连接的作用。
  • 在白盒PGD攻击(10–2000次迭代)和黑盒CAAD 2017/2018风格攻击下进行评估,报告top-1准确率与全要素判定标准。

实验结果

研究问题

  • RQ1特征层面的去噪是否能降低中间CNN表示中的对抗性噪声?
  • RQ2在白盒PGD攻击下,哪些去噪操作(非局部均值、双边、均值、中值)能最好地提升鲁棒性?
  • RQ3将去噪块与对抗训练结合是否在ImageNet上对白盒和黑盒攻击实现了最先进的鲁棒性?
  • RQ4在使用特征去噪块时,对抗鲁棒性与净图准确度之间的权衡是什么?

主要发现

攻击迭代次数非局部、Gaussian(ResNet-152)移除1x1移除残差
1055.752.1NaN
10045.536.8NaN
  • 在10次迭代的PGD下,ResNet-152 + 四个去噪块达到55.7%准确率,基线为52.5%。
  • 在2000次迭代的PGD下,去噪模型达到42.6%准确率,基线为39.2%。
  • 在黑盒CAAD 2018 defense中,该方法在一个秘密的类似ImageNet的测试数据集上取得50.6%准确率,防御赛道领先约10个百分点超过亚军。
  • 消融显示去除1x1卷积会显著降低性能(例如在100次迭代时从45.5%降至36.8%);去除残差连接会使训练不稳定,表明两者都很重要。
  • 非局部去噪块在鲁棒性方面超出局部去噪,带高斯权重的非局部均值在各变体中表现最佳。
  • 在非对抗(清洁)场景下,去噪块并不显著提高准确性,表明这是一种专门的鲁robustness收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。