QUICK REVIEW

[论文解读] Learning to Defend by Learning to Attack

Haoming Jiang, Zhehui Chen|arXiv (Cornell University)|Nov 3, 2018

Adversarial Robustness in Machine Learning参考文献 47被引用 30

一句话总结

该论文提出了一种新颖的元学习（L2L）框架，通过训练神经网络优化器生成对抗性样本，从而在对抗性训练过程中提升模型的鲁棒性。通过端到端地学习可微分的攻击过程，该方法在CIFAR-10和CIFAR-100上实现了最先进的准确率与效率，优于现有的对抗性训练基线方法。

ABSTRACT

Adversarial training provides a principled approach for training robust neural networks. From an optimization perspective, adversarial training is essentially solving a bilevel optimization problem. The leader problem is trying to learn a robust classifier, while the follower problem is trying to generate adversarial samples. Unfortunately, such a bilevel problem is difficult to solve due to its highly complicated structure. This work proposes a new adversarial training method based on a generic learning-to-learn (L2L) framework. Specifically, instead of applying existing hand-designed algorithms for the inner problem, we learn an optimizer, which is parametrized as a convolutional neural network. At the same time, a robust classifier is learned to defense the adversarial attack generated by the learned optimizer. Experiments over CIFAR-10 and CIFAR-100 datasets demonstrate that L2L outperforms existing adversarial training methods in both classification accuracy and computational efficiency. Moreover, our L2L framework can be extended to generative adversarial imitation learning and stabilize the training.

研究动机与目标

为解决对抗性训练中双层优化问题的挑战，该问题计算复杂且难以优化。
通过学习一个端到端的优化器来生成强且可迁移的对抗性扰动，从而提升对抗性鲁棒性。
与手工设计的攻击方法（如FGSM或PGD）相比，提升训练的稳定性和效率。
将对抗性训练与生成对抗模仿学习（GAIL）统一于单一L2L框架下，以提升训练稳定性。

提出的方法

提出一种可微分的、端到端的L2L框架，其中内层问题（对抗性攻击生成）由一个神经网络优化器求解，该优化器参数化为卷积网络。
攻击者网络接收输入图像及其梯度作为输入，从而能够通过基于梯度的优化学习有效的扰动模式。
在双层优化设置中，将鲁棒分类器与攻击者网络联合训练，其中领导者最小化由跟随者生成的对抗性分布下的测试损失。
采用GAN训练中的技术（如两时间尺度更新规则）来稳定端到端L2L系统的训练。
通过使用相同的L2L攻击者生成对抗性示范，将框架扩展至GAIL，从而稳定模仿学习中的策略训练。
采用跳跃连接和架构设计以保留梯度信息，防止攻击者网络训练过程中的不稳定性。

实验结果

研究问题

RQ1学习得到的优化器是否能在生成鲁棒对抗性样本方面超越手工设计的对抗攻击方法（如FGSM和PGD）？
RQ2基于L2L的攻击者进行端到端训练，是否能提升标准基准测试中神经网络的鲁棒性与准确率？
RQ3L2L框架是否能稳定对抗性模仿学习中的训练，从而避免标准GAIL因模式崩溃和性能下降而产生的问题？
RQ4将梯度信息纳入攻击者网络输入，对生成对抗性样本的质量与泛化能力有何影响？

主要发现

所提出的L2L框架在CIFAR-10和CIFAR-100上实现了最先进的测试准确率，优于现有对抗性训练方法，无论在FGSM还是PGD攻击下均表现更优。
该方法展现出卓越的计算效率，通过学习可泛化的攻击策略，显著减少了每个样本所需的迭代攻击生成次数。
在GAIL实验中，基于L2L的方法稳定了训练过程，避免了标准GAIL中因过拟合专家轨迹而导致的性能突然下降。
在攻击者输入中包含梯度信息显著提升了训练的稳定性和鲁棒性，这一点通过无此组件的朴素和轻量级攻击者变体的失败得到验证。
L2L攻击者学习到样本间的共享结构模式，使其能够生成强且可迁移的对抗性样本，从而在不同攻击类型间表现出良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。