QUICK REVIEW

[论文解读] Improving Adversarial Robustness Through Progressive Hardening

Chawin Sitawarin, Supriyo Chakraborty|arXiv (Cornell University)|Mar 18, 2020

Adversarial Robustness in Machine Learning参考文献 28被引用 29

一句话总结

本文提出对抗性训练与早停（ATES），一种受课程学习启发的方法，通过在预设难度级别处对对抗性样本生成进行早停，动态控制对抗性样本生成，从而在保持干净准确率的同时提高对抗性鲁棒性。与标准对抗性训练和 TRADES 相比，ATES 在干净准确率与鲁棒性之间实现了更优的权衡。

ABSTRACT

Adversarial training (AT) has become a popular choice for training robust networks. However, it tends to sacrifice clean accuracy heavily in favor of robustness, and with a large perturbation, it can cause models to learn a trivial solution, always predicting the same class. To address the above concerns, we propose Adversarial Training with Early Stopping (ATES), guided by principles from curriculum learning that emphasizes on starting easy and gradually ramping up on the of training. ATES is derived from our formulation for curriculum learning in the adversarial setting which introduces an additional curriculum constraint to the normal adversarial loss. To satisfy this constraint, we apply early stopping on the adversarial example generation step when a specified level of difficulty is reached. ATES stabilizes network training even for a large perturbation norm and allows the network to operate at a better clean accuracy versus robustness trade-off curve compared to AT. This leads to a significant improvement in both clean accuracy and robustness compared to AT, TRADES, and the other baselines.

研究动机与目标

为解决在对抗性训练（AT）中常见于大扰动范数下的干净准确率下降问题。
防止模型在使用大扰动训练时学习到平凡解（例如，始终预测同一类别）。
通过引入一种逐步增加难度的课程学习策略，稳定大扰动范数下的训练过程。
与标准 AT 和 TRADES 相比，实现更优的干净准确率与鲁棒性之间的权衡。

提出的方法

ATES 在对抗性训练目标中引入课程约束，以控制训练过程中对抗性样本的难度。
当达到指定难度水平时，在对抗性样本生成过程中应用早停机制。
该早停机制可防止对过于困难的对抗性样本进行过度优化，从而避免训练不稳定和干净准确率下降。
课程约束确保训练从较简单的对抗性样本开始，并逐步增加难度，模仿课程学习过程。
通过在优化过程中避免过度扰动，该方法在鲁棒性与干净准确率之间保持平衡。
ATES 被形式化为一个约束优化问题，其中课程约束限制了对抗性样本生成的步长。

实验结果

研究问题

RQ1在对抗性样本生成过程中使用早停是否能改善对抗性训练中鲁棒性与干净准确率之间的权衡？
RQ2在对抗性训练中采用课程学习方法是否能防止模型在大扰动下收敛到平凡解？
RQ3在不同扰动范数下，ATES 与标准对抗性训练和 TRADES 在干净准确率和鲁棒性方面有何比较？
RQ4通过控制难度的对抗性样本生成来稳定对抗性训练，是否能在不同数据集和模型架构上持续带来性能提升？

主要发现

与标准对抗性训练（AT）和 TRADES 相比，ATES 在干净准确率与鲁棒性之间实现了更优的权衡。
该方法即使在大扰动范数下也能稳定训练，防止模型学习到平凡预测。
与 AT 和 TRADES 相比，ATES 在评估基准上显著提升了干净准确率和鲁棒性。
在特定难度级别处应用早停可防止对困难对抗性样本的过拟合，从而保持对干净数据的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。