Skip to main content
QUICK REVIEW

[论文解读] Towards Robust Neural Networks via Random Self-ensemble

Xuanqing Liu, Minhao Cheng|arXiv (Cornell University)|Dec 2, 2017
Adversarial Robustness in Machine Learning参考文献 32被引用 46
一句话总结

本文提出随机自集成(RSE)方法,通过在训练和推理过程中在每个卷积层前插入随机噪声层,提升深度神经网络的鲁棒性。通过使用带噪声的随机梯度下降进行训练,并对多次带噪声的前向传播结果进行集成预测,RSE在CIFAR-10数据集上使用VGG16模型对强C&W攻击的准确率达到86.1%,显著优于以往防御方法和现有技术,同时实现简单易用且无需额外内存开销。

ABSTRACT

Recent studies have revealed the vulnerability of deep neural networks: A small adversarial perturbation that is imperceptible to human can easily make a well-trained deep neural network misclassify. This makes it unsafe to apply neural networks in security-critical applications. In this paper, we propose a new defense algorithm called Random Self-Ensemble (RSE) by combining two important concepts: {\bf randomness} and {\bf ensemble}. To protect a targeted model, RSE adds random noise layers to the neural network to prevent the strong gradient-based attacks, and ensembles the prediction over random noises to stabilize the performance. We show that our algorithm is equivalent to ensemble an infinite number of noisy models $f_ε$ without any additional memory overhead, and the proposed training procedure based on noisy stochastic gradient descent can ensure the ensemble model has a good predictive capability. Our algorithm significantly outperforms previous defense techniques on real data sets. For instance, on CIFAR-10 with VGG network (which has 92\% accuracy without any attack), under the strong C\&W attack within a certain distortion tolerance, the accuracy of unprotected model drops to less than 10\%, the best previous defense technique has $48\%$ accuracy, while our method still has $86\%$ prediction accuracy under the same level of attack. Finally, our method is simple and easy to integrate into any neural network.

研究动机与目标

  • 解决深度神经网络对导致误分类的不可察觉对抗扰动的脆弱性问题。
  • 开发一种无需增加模型大小或修改网络结构即可提升鲁棒性的防御机制。
  • 在保持自然图像上高准确率的同时,实现对强白盒攻击(如C&W)的有效鲁棒性。
  • 提供一种简单、即插即用的防御方法,可应用于任意预训练神经网络。

提出的方法

  • 引入一种‘噪声层’,在训练和推理过程中于每个卷积层前向输入注入随机噪声。
  • 使用带噪声的随机梯度下降进行网络训练,即在反向传播过程中对梯度施加噪声以正则化模型。
  • 在推理阶段,对不同随机噪声实现进行多次前向传播,并对预测结果进行集成以提升鲁棒性。
  • 理论分析表明,RSE等价于对无限多个带噪声模型 $ f_\epsilon $ 进行集成,且无内存开销。
  • 该方法隐式地为模型添加了Lipschitz正则化,增强对输入扰动的鲁棒性。
  • 训练过程最小化集成模型损失的上界,从而确保良好的泛化能力和预测性能。

实验结果

研究问题

  • RQ1在训练和推理过程中注入随机噪声是否能在不增加模型大小的前提下提升对抗鲁棒性?
  • RQ2与传统集成方法相比,对随机扰动模型进行自集成在鲁棒性和效率方面表现如何?
  • RQ3与现有防御技术相比,RSE在应对强白盒攻击(如C&W)时能将鲁棒性提升到何种程度?
  • RQ4该方法在显著提升鲁棒性的同时,是否能保持在自然(非对抗)图像上的高准确率?
  • RQ5RSE是否可在无需修改网络结构的前提下,有效应用于多种架构和数据集?

主要发现

  • 在CIFAR-10数据集上使用VGG16模型,RSE在C&W非目标攻击下(失真容忍度为0.21)达到86.1%的准确率,显著优于最佳现有防御方法(48%)和未受保护的模型(低于10%)。
  • RSE显著提高了成功攻击所需的失真程度——与其它防御方法相比,RSE下的对抗样本更加失真,如图2和图5所示。
  • 该方法在自然图像上的测试准确率保持较高水平,仅比标准模型略有下降,表明对干净数据性能影响极小。
  • 对10次带噪声前向传播结果进行集成已接近准确率增益的饱和状态,表明10至50次集成已足够实现最优性能。
  • RSE在鲁棒性和训练效率方面均优于标准对抗训练及更强的变体(对抗训练II),后者训练时间约长10倍。
  • RSE不仅对非目标攻击有效,对目标攻击也表现出色,如图6所示的可视化结果表明其生成的对抗样本更加失真。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。