QUICK REVIEW

[论文解读] Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images

Anh‐Tu Nguyen, Jason Yosinski|arXiv (Cornell University)|Dec 5, 2014

Advanced Neural Network Applications参考文献 5被引用 78

一句话总结

本文展示了深度神经网络（DNNs）可对人类完全无法识别的图像（如白噪声或随机图案）赋予接近100%的置信度，方法是使用进化算法或梯度上升生成‘欺骗图像’。关键发现是，DNNs 依赖于高维决策边界，可在远离自然数据分布的区域产生误报，揭示了其泛化能力中的关键漏洞，并引发了在安全关键系统中实际部署的担忧。

ABSTRACT

Deep neural networks (DNNs) have recently been achieving state-of-the-art performance on a variety of pattern-recognition tasks, most notably visual classification problems. Given that DNNs are now able to classify objects in images with near-human-level performance, questions naturally arise as to what differences remain between computer and human vision. A recent study revealed that changing an image (e.g. of a lion) in a way imperceptible to humans can cause a DNN to label the image as something else entirely (e.g. mislabeling a lion a library). Here we show a related result: it is easy to produce images that are completely unrecognizable to humans, but that state-of-the-art DNNs believe to be recognizable objects with 99.99% confidence (e.g. labeling with certainty that white noise static is a lion). Specifically, we take convolutional neural networks trained to perform well on either the ImageNet or MNIST datasets and then find images with evolutionary algorithms or gradient ascent that DNNs label with high confidence as belonging to each dataset class. It is possible to produce images totally unrecognizable to human eyes that DNNs believe with near certainty are familiar objects, which we call "fooling images" (more generally, fooling examples). Our results shed light on interesting differences between human vision and current DNNs, and raise questions about the generality of DNN computer vision.

研究动机与目标

调查深度神经网络是否会对人类完全无法识别的图像产生高置信度预测。
探讨人类视觉感知与基于深度学习的计算机视觉在目标识别方面的差异。
评估DNNs对非微小扰动但完全不自然的对抗样本的鲁棒性。
检验通过在训练数据中加入欺骗图像是否可提升DNNs对后续对抗样本的抵抗能力。
理解这些发现对DNNs在自动驾驶或人脸识别等真实世界安全关键应用中部署的影响。

提出的方法

使用进化算法（EAs），特别是MAP-Elites，生成最大化DNN对特定类别置信度分数的图像，即使这些图像在视觉上完全无法识别。
应用梯度上升优化图像像素，以最大化DNN中特定类别神经元的激活，从而对非自然图像产生高置信度预测。
采用两种图像编码方法：直接像素编码和CPPN（组合模式映射神经进化）编码，以在生成图像中实现多样化和复杂的图案。
研究使用了两个预训练的DNN：用于ImageNet的AlexNet和用于MNIST的LeNet，两者均可通过Caffe框架公开获取。
将生成的‘欺骗图像’在两个模型上进行测试，以评估其在不同架构和数据集间的泛化能力。
通过将欺骗图像标记为负样本并重新训练DNNs，开展再训练实验，以评估其对后续攻击的抵抗能力。

实验结果

研究问题

RQ1深度神经网络是否可对人类完全无法识别的图像赋予高置信度？
RQ2通过进化算法或梯度上升生成的欺骗图像，在不同DNN架构和数据集中是否表现出一致的模式？
RQ3是否可通过在训练数据中包含欺骗图像来重新训练DNNs，以提升其对欺骗图像的抵抗能力？
RQ4判别性模型（如DNNs）的决策边界如何导致在远离自然数据分布的图像上产生高置信度预测？
RQ5这些发现对DNNs在自动驾驶或人脸识别系统等真实世界应用中的可靠性与安全性有何影响？

主要发现

包括AlexNet和LeNet在内的DNNs，对人类完全无法识别的图像（如白噪声或随机图案）的置信度得分高达99.99%。
进化算法和梯度上升成功生成了欺骗图像，使最先进的DNNs将完全无法识别的图案错误分类为狮子、摩托车和键盘等熟悉物体。
即使在将欺骗图像作为负样本重新训练DNNs后，仍可生成新的欺骗图像使重训练后的模型产生误判，表明其鲁棒性有限。
该现象源于DNNs在高维空间中的决策边界为每个类别分配了大范围区域，包括远离自然数据的区域，从而导致误报。
部分生成的欺骗图像在初次观察时虽无法识别，但一旦了解目标类别后便变得可识别，表明DNNs学习了可被利用以生成看似合理但人为构造的图像的判别性特征。
作者曾将若干欺骗图像提交至艺术比赛，其中部分被接受并展出，表明在特定条件下，此类图像可被视为艺术或具有意义。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。