QUICK REVIEW

[论文解读] Adversarial Training for Free!

Ali Shafahi, Mahyar Najibi|arXiv (Cornell University)|Apr 29, 2019

Adversarial Robustness in Machine Learning参考文献 48被引用 2

一句话总结

该论文提出了一种新颖的‘免费’对抗训练方法，通过重用标准反向传播中的梯度信息，在不增加额外计算成本的情况下生成对抗样本，实现了与基于PGD的对抗训练相当的鲁棒性。该方法可在仅配备4块P100 GPU的单个工作站上，两天内训练出鲁棒的ImageNet模型，对抗PGD攻击的准确率达到40%。

ABSTRACT

Adversarial training, in which a network is trained on adversarial examples, is one of the few defenses against adversarial attacks that withstands strong attacks. Unfortunately, the high cost of generating strong adversarial examples makes standard adversarial training impractical on large-scale problems like ImageNet. We present an algorithm that eliminates the overhead cost of generating adversarial examples by recycling the gradient information computed when updating model parameters. Our "free" adversarial training algorithm achieves comparable robustness to PGD adversarial training on the CIFAR-10 and CIFAR-100 datasets at negligible additional cost compared to natural training, and can be 7 to 30 times faster than other strong adversarial training methods. Using a single workstation with 4 P100 GPUs and 2 days of runtime, we can train a robust model for the large-scale ImageNet classification task that maintains 40% accuracy against PGD attacks. The code is available at https://github.com/ashafahi/free_adv_train.

研究动机与目标

为解决对抗训练的高计算成本问题，该问题限制了其在大规模深度学习应用中的使用。
通过重用标准训练中的梯度，消除生成对抗样本的开销。
在计算资源有限的条件下，实现大规模数据集（如ImageNet）的鲁棒模型训练。
在不增加训练时间的前提下，实现与强对抗训练方法（如基于PGD）相当的鲁棒性。

提出的方法

该方法通过一次反向传播，同时利用相同的梯度计算更新模型参数和对抗扰动。
在反向传播过程中，利用损失函数对输入扰动的梯度，避免为生成对抗样本而进行额外的前向传播。
该方法采用非目标对抗攻击的公式，求解 max_δ l(x+δ, y, θ)，其中 ||δ||_∞ ≤ ϵ。
该算法通过重用相同的反向传播过程同时优化模型权重和扰动，将对抗训练集成到标准SGD中。
该方法采用与自然训练相同的优化方案，但在同一反向传播过程中包含扰动更新。
该方法与标准深度学习框架兼容，无需架构更改或额外组件（如GANs）。

实验结果

研究问题

RQ1能否通过重用梯度计算，使对抗训练的效率与自然训练相当？
RQ2通过重用梯度同时更新模型权重和扰动，是否能保持与基于PGD的对抗训练相当的鲁棒性？
RQ3该方法能否在仅使用适度硬件的条件下，扩展到ImageNet等大规模数据集？
RQ4在强攻击下，'免费'对抗训练的鲁棒性与基于PGD的训练相比如何？
RQ5使用该方法训练更高容量的模型，是否能在不增加训练成本的前提下获得更好的鲁棒性？

主要发现

所提出的‘免费’对抗训练方法仅使用4块P100 GPU和两天训练时间，就在ImageNet上实现了对PGD攻击40%的鲁棒准确率。
在CIFAR-10和CIFAR-100上，该方法的鲁棒性与基于PGD的对抗训练相当，某些情况下甚至略有提升。
与传统对抗训练方法相比，该方法速度快7至30倍，相较于2-PGD训练快3.46倍。
使用免费对抗训练训练的ResNet-152在PGD-50攻击下达到36.99%的鲁棒准确率，比ResNet-50的鲁棒性高出约4%。
该方法在保持高自然准确率（ResNet-152为64.446%）的同时实现了强鲁棒性，表明模型容量与鲁棒性可同步提升。
该方法使仅配备单个工作站的实验室也能实现鲁棒的ImageNet训练，显著提升了对抗训练的可及性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。