QUICK REVIEW

[论文解读] Safer Classification by Synthesis

William Yang Wang, Angelina Wang|arXiv (Cornell University)|Nov 22, 2017

Adversarial Robustness in Machine Learning参考文献 24被引用 32

一句话总结

本文提出了一种生成式分类框架，利用类别特定的生成模型（VAEs 或 GANs）提升对分布外样本的鲁棒性。在测试时，它在所有类别生成器中寻找与给定输入最相似的生成图像，并选择对应类别的预测结果；该方法确保了可靠的不确定性估计，同时在分布内数据上保持了具有竞争力的准确率，并在选择性预测下实现了趋近于零的风险。

ABSTRACT

The discriminative approach to classification using deep neural networks has become the de-facto standard in various fields. Complementing recent reservations about safety against adversarial examples, we show that conventional discriminative methods can easily be fooled to provide incorrect labels with very high confidence to out of distribution examples. We posit that a generative approach is the natural remedy for this problem, and propose a method for classification using generative models. At training time, we learn a generative model for each class, while at test time, given an example to classify, we query each generator for its most similar generation, and select the class corresponding to the most similar one. Our approach is general and can be used with expressive models such as GANs and VAEs. At test time, our method accurately "knows when it does not know," and provides resilience to out of distribution examples while maintaining competitive performance for standard examples.

研究动机与目标

为解决判别式深度学习模型的安全性局限，这些模型可能以高置信度错误分类分布外样本。
通过利用生成建模，开发一种能够内在识别自身未知情况的分类方法。
为安全关键应用提供一种原则性、可解释且鲁棒的判别式分类器替代方案。
评估生成模型是否可同时作为高精度分类器和有效的新颖性检测器。

提出的方法

在训练阶段，使用标注数据为每个类别分别训练一个生成模型（VAE 或 GAN）。
在测试阶段，对于给定的输入图像，该方法在每个生成器的潜在空间中搜索，以找到生成最相似图像的潜在向量。
选择生成图像与输入图像最接近（以 L² 距离衡量）的生成器所对应的类别作为预测结果。
置信度由输入与最近生成图像之间的 L² 距离推导得出，从而支持选择性分类。
该方法使用基于相似性的置信度分数来拒绝分布外样本，实现了趋近于零风险的特性。
该方法兼容 VAE 和 GAN，且无需修改生成模型的训练目标。

实验结果

研究问题

RQ1与标准判别式模型相比，生成建模方法是否能为分布外样本提供更好的鲁棒性？
RQ2测试图像与类别特定生成器生成的最近图像之间的相似性，是否能提供可靠的置信度分数？
RQ3生成模型能否同时实现高分布内准确率和有效的新颖性检测？
RQ4基于生成重建误差的置信度分数是否足以支持选择性分类并实现趋近于零的风险？

主要发现

生成式分类器在选择性预测下实现了趋近于零的风险，意味着通过提高选择性可将错误率降至零，而标准 CNN 则不具备此特性。
在 Omniglot 扩展的 MNIST 数据集上，基于 L² 距离的生成式分类器基线准确率低于 CNN，但对分布外输入表现出更强的鲁棒性。
对于被 CNN 高置信度错误分类的 Omniglot 图像，基于 GAN 的生成式分类器产生的最小 L² 距离约为 10⁻²，比 MNIST 图像的约 10⁻³ 高一个数量级，表明置信度较低。
当将生成式新颖性检测与 CNN 分类相结合时，所得到的系统在所有覆盖率水平下均优于 CNN 单独使用，在每个阈值下均实现了更低的风险。
基于 VAE 的生成式分类器能够正确分类 KNN 错误分类的 MNIST 图像，因为即使训练集中不存在此类样本，它也能生成正确类别的真实图像。
该方法提供了可解释性：分类决策基于具体的生成图像，使推理过程更加透明。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。