QUICK REVIEW

[论文解读] Robustness May Be at Odds with Accuracy

Dimitris Tsipras, Shibani Santurkar|arXiv (Cornell University)|May 30, 2018

Adversarial Robustness in Machine Learning参考文献 63被引用 371

一句话总结

该论文展示了对抗性鲁棒性与标准准确性之间的基本权衡，证明提高鲁棒性可能降低传统准确性，并显示鲁棒性学习到不同的、与人类对齐的特征。它还讨论了鲁棒性的好处以及对抗训练的必要性。

ABSTRACT

We show that there may exist an inherent tension between the goal of adversarial robustness and that of standard generalization. Specifically, training robust models may not only be more resource-consuming, but also lead to a reduction of standard accuracy. We demonstrate that this trade-off between the standard accuracy of a model and its robustness to adversarial perturbations provably exists in a fairly simple and natural setting. These findings also corroborate a similar phenomenon observed empirically in more complex settings. Further, we argue that this phenomenon is a consequence of robust classifiers learning fundamentally different feature representations than standard classifiers. These differences, in particular, seem to result in unexpected benefits: the representations learned by robust models tend to align better with salient data characteristics and human perception.

研究动机与目标

激发并形式化标准泛化与对抗性鲁棒性之间潜在冲突。
通过一个简单的分布模型证明，高标准准确性可能毁坏对抗性鲁棒性，反之亦然。
检查对抗性训练在实现非平凡鲁棒性中的作用及其对准确性的影响。
探索鲁棒性的定性好处，包括与人类对齐的表示和可解释的梯度。

提出的方法

引入一个简单的二元分类数据模型，包含一个强预测特征和许多弱预测特征。
证明一个鲁棒性-准确性权衡界限，表明在 l_infty 扰动（epsilon ≥ 2 eta）下，高标准准确性意味着较低鲁棒准确性。
表明任何标准准确度接近100%的分类器必须依赖于对对抗扰动脆弱的非鲁棒特征。
给出一个定理，证明在此情形下获得非平凡的对抗性准确度需要对抗训练。
在 MNIST 上提供实证研究，展示类似的权衡和特征使用。
可视化损失梯度和对抗样本，以比较标准模型与鲁棒模型。

实验结果

研究问题

RQ1标准准确性与对抗性鲁棒性之间是否存在内在的权衡？
RQ2为什么对抗性鲁棒性有时会降低标准准确性，这是否是不可避免，还是由于训练方法？
RQ3鲁棒模型是否学习到与人类更为对齐的不同特征，与标准模型相比？
RQ4对抗训练是否能够在不牺牲全部标准准确性的情况下显著提高鲁棒性？

主要发现

在一个简单、自然的数据分布中存在鲁棒-准确性权衡，并且可以理论上证明其成立（定理2.1）。
任何达到1−δ标准准确性的分类器在 l_infty 扰动、且 ε ≥ 2η 时，鲁棒准确性至多为 (p/(1−p))·δ；这意味着接近100%的标准准确性会导致接近为零的鲁棒准确性（p=0.95 的例子：99% 标准准确性 ⇒ 鲁棒性 ≤19%）。
对抗训练很关键：以鲁棒性为目标训练的软间隔SVM获得非平凡的鲁棒准确性，而标准训练在 ε ≥ 2η 下产生高标准但低对抗性准确度。
鲁棒和标准分类器依赖于不同的特征集；鲁棒特征不易被扰动，解释了这种权衡。
在 MNIST 上的实证研究中，标准模型使用相关性较弱的特征，而鲁棒模型专注于更鲁棒的特征；鲁棒梯度与人类感知特征的对齐更好。
鲁棒扰动产生的对抗样本具有显著的数据特征，原始样本与大ε对抗样本之间出现平滑的跨类插值，类似于GAN样本轨迹。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。