QUICK REVIEW

[论文解读] Adversarial Robustness via Adversarial Label-Smoothing.

Morgane Goibert, Elvis Dohmatob|arXiv (Cornell University)|Jun 27, 2019

Adversarial Robustness in Machine Learning被引用 11

一句话总结

本文提出对抗性标签平滑方法——对抗性标签平滑、Boltzmann标签平滑和次佳标签平滑，以提升深度学习模型的对抗鲁棒性。通过修改交叉熵损失以更好地反映数据集的几何结构，这些方法在不改变网络架构或增加训练时间的前提下，提升了标准准确率和对抗准确率，且在多个数据集和模型上均优于标准标签平滑方法。

ABSTRACT

We study Label-Smoothing as a means for improving adversarial robustness of supervised deep-learning models. After establishing a thorough and unified framework, we propose several novel Label-Smoothing methods: adversarial, Boltzmann and second-best Label-Smoothing methods. On various datasets (MNIST, CIFAR10, SVHN) and models (linear models, MLPs, LeNet, ResNet), we show that these methods improve adversarial robustness against a variety of attacks (FGSM, BIM, DeepFool, Carlini-Wagner) by better taking account of the dataset geometry. These proposed Label-Smoothing methods have two main advantages: they can be implemented as a modified cross-entropy loss, thus do not require any modifications of the network architecture nor do they lead to increased training times, and they improve both standard and adversarial accuracy.

研究动机与目标

通过标签平滑方法提升监督式深度学习模型的对抗鲁棒性。
通过引入数据集几何结构，解决标准标签平滑在处理对抗样本时的局限性。
开发无需修改网络架构或增加训练时间的标签平滑变体，以增强鲁棒性。
在对抗鲁棒性的背景下，统一并系统评估标签平滑方法。

提出的方法

提出对抗性标签平滑，根据模型在对抗扰动下的预测结果调整标签分布。
引入Boltzmann标签平滑，利用温度调节的softmax函数，根据类别置信度对标签进行平滑处理。
开发次佳标签平滑，将更高概率分配给第二大概率类别，以提升鲁棒性。
所有方法均以修改后的交叉熵损失形式实现，支持即插即用，无需架构变更。
该框架在统一的理论基础上整合标签平滑方法，强调数据集的几何特性。
采用标准优化方法端到端训练，保持训练效率。

实验结果

研究问题

RQ1标签平滑能否被有效改进，以超越标准标签平滑在对抗鲁棒性方面的表现？
RQ2不同标签平滑策略（对抗性、Boltzmann、次佳）在鲁棒性和准确率方面的表现如何比较？
RQ3这些方法在不增加训练成本的前提下，对对抗攻击下的泛化能力提升程度如何？
RQ4将数据集几何结构融入标签平滑，如何在多样化模型和数据集上增强鲁棒性？

主要发现

所提出的标签平滑方法在多个数据集（包括MNIST、CIFAR10和SVHN）上均提升了对抗鲁棒性。
所有方法在FGSM、BIM、DeepFool和Carlini-Wagner攻击下，均同时提升了标准准确率和鲁棒准确率。
这些方法在不修改网络架构或增加训练时间的前提下实现了更强的鲁棒性。
对抗性标签平滑在捕捉数据集几何结构方面表现出色，带来了更显著的鲁棒性提升。
在多种模型（包括线性模型、MLP、LeNet和ResNet）上，性能提升保持一致。
在所有评估基准上，这些标签平滑变体在标准准确率和对抗准确率上均优于标准标签平滑。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。