[论文解读] Adversarial Robustness as a Prior for Learned Representations
本文表明,通过对抗性鲁棒网络学习的表征充当一种先验,能够产生更符合人类直觉、近似可逆且易于可视化的特征嵌入,从而实现语义反演、可视化和操作。
An important goal in deep learning is to learn versatile, high-level feature representations of input data. However, standard networks' representations seem to possess shortcomings that, as we illustrate, prevent them from fully realizing this goal. In this work, we show that robust optimization can be re-cast as a tool for enforcing priors on the features learned by deep neural networks. It turns out that representations learned by robust models address the aforementioned shortcomings and make significant progress towards learning a high-level encoding of inputs. In particular, these representations are approximately invertible, while allowing for direct visualization and manipulation of salient input features. More broadly, our results indicate adversarial robustness as a promising avenue for improving learned representations. Our code and models for reproducing these results is available at https://git.io/robust-reps .
研究动机与目标
- 证明标准表示在捕获人类可解释的高层特征方面的局限性。
- 表明鲁棒优化在学习表示中引入的先验与人类感知保持一致。
- 研究鲁棒表示是否近似可逆并且适合直接可视化和操作。
提出的方法
- 在 Restricted ImageNet 和 ImageNet 上,以标准和鲁棒目标训练 ResNet-50 模型。
- 使用基于 PGD 的鲁棒优化,在一个扰动集合内最小化最坏情况损失。
- 比较标准模型与鲁棒模型在表示属性上的差异,包括反演和可视化任务。
实验结果
研究问题
- RQ1鲁棒表示是否降低了在标准模型中观察到的学习到的特征与人类感知特征之间的错位?
- RQ2鲁棒表示是否近似可逆且在不使用大量正则化的情况下可直接可视化?
- RQ3鲁棒表示是否支持特征操作和输入之间的语义有意义的插值?
- RQ4在分布外输入上,鲁棒表示在反演和可视化方面的表现如何?
主要发现
- 鲁棒表示近似可逆,产生对近邻表示语义相似的输入。
- 直接对鲁棒表示进行优化即可得到人类可识别的可视化结果,无需正则化。
- 鲁棒表示通过向图像添加显著特征来实现特征操作。
- 即使在分布外输入上,反演仍然有意义,提示这些特征与人类感知对齐。
- 在表示空间对任意输入进行插值会产生知觉上合理的过渡。
- 鲁棒优化充当一个先验,使得特征嵌入比标准模型更符合人类感知。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。