QUICK REVIEW

[论文解读] On the Loss Landscape of Adversarial Training: Identifying Challenges and How to Overcome Them

Chen Liu, Mathieu Salzmann|arXiv (Cornell University)|Jun 15, 2020

Adversarial Robustness in Machine Learning参考文献 54被引用 26

一句话总结

本文指出，对抗训练中较大的对抗预算会导致损失曲面更加复杂，表现为曲率增加、梯度分散以及极小值更尖锐，从而阻碍优化过程。为克服此问题，本文提出周期性对抗调度（PAS），在训练过程中循环调整对抗预算，从而在不增加计算开销的前提下，提升模型的鲁棒准确率并降低对学习率选择的敏感性。

ABSTRACT

We analyze the influence of adversarial training on the loss landscape of machine learning models. To this end, we first provide analytical studies of the properties of adversarial loss functions under different adversarial budgets. We then demonstrate that the adversarial loss landscape is less favorable to optimization, due to increased curvature and more scattered gradients. Our conclusions are validated by numerical analyses, which show that training under large adversarial budgets impede the escape from suboptimal random initialization, cause non-vanishing gradients and make the model find sharper minima. Based on these observations, we show that a periodic adversarial scheduling (PAS) strategy can effectively overcome these challenges, yielding better results than vanilla adversarial training while being much less sensitive to the choice of learning rate.

研究动机与目标

分析对抗预算大小如何影响深度学习模型在对抗训练过程中的损失曲面特性。
识别在大对抗预算下出现的优化挑战，如曲率增加、梯度分散以及极小值变尖。
研究对抗预算大小对收敛速度、泛化差距以及模型连通性的影响。
提出一种调度策略，在不增加计算成本的前提下提升训练稳定性和鲁棒性。
验证周期性调度对抗预算相较于原始对抗训练可取得更优性能。

提出的方法

通过线性模型对对抗损失函数进行理论分析，推导不同对抗预算下的损失曲面性质。
通过数值分析与基于Hessian矩阵的分析，将理论发现扩展至非线性深度神经网络，分析损失曲面曲率。
提出周期性对抗调度（PAS），一种循环策略，训练过程中逐步增加并减小对抗预算，包含预热阶段。
使用贝塞尔曲线评估参数空间中极小值之间的连通性，分析训练后模型在损失曲面中的连接程度。
在MNIST与CIFAR-10数据集上，基于LeNet与ResNet架构，对多种调度方案进行实证评估。
基于梯度优化贝塞尔曲线以估计路径损失与连通性，并在路径上重新估算批量归一化统计量。

实验结果

研究问题

RQ1对抗预算的大小如何影响对抗损失曲面的平滑性与曲率？
RQ2为何使用大预算的对抗训练会导致收敛变慢且梯度无法消失？
RQ3对抗训练中的泛化差距由何造成？其与损失曲面几何结构有何关联？
RQ4动态调度对抗预算能否提升优化稳定性与鲁棒准确率？
RQ5相较于原始训练的损失曲面，对抗训练损失曲面中的极小值连通性如何？

主要发现

大对抗预算显著增加损失曲面的曲率，并引发严重的梯度分散，使优化更加困难。
在大预算下训练会阻碍模型逃离次优初始化区域，并导致训练后期梯度无法消失。
Hessian分析证实，大对抗预算下找到的极小值显著比小预算下的极小值更尖锐。
周期性对抗调度（PAS）在多种模型规模与数据集上均优于原始对抗训练，鲁棒准确率更高。
PAS显著降低对学习率选择的敏感性，在MNIST与CIFAR-10上不同学习率设置下均保持一致性能。
对抗损失曲面中的极小值连通性低于原始训练，尤其在大预算下，表现为连接训练模型的贝塞尔曲线非平坦。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。