Skip to main content
QUICK REVIEW

[论文解读] A Study and Comparison of Human and Deep Learning Recognition Performance Under Visual Distortions

Samuel Dodge, Lina J. Karam|arXiv (Cornell University)|May 6, 2017
Image Processing Techniques and Applications参考文献 17被引用 27
一句话总结

本研究比较了人类与深度神经网络(DNN)在图像分类任务中面对高斯噪声和模糊等视觉失真时的表现。尽管在干净图像上DNN的准确率与人类相当或更高,但在失真图像上,DNN的表现显著低于人类,且两者错误模式的相关性极低,表明人类与DNN在内部图像表征上存在根本性差异。

ABSTRACT

Deep neural networks (DNNs) achieve excellent performance on standard classification tasks. However, under image quality distortions such as blur and noise, classification accuracy becomes poor. In this work, we compare the performance of DNNs with human subjects on distorted images. We show that, although DNNs perform better than or on par with humans on good quality images, DNN performance is still much lower than human performance on distorted images. We additionally find that there is little correlation in errors between DNNs and human subjects. This could be an indication that the internal representation of images are different between DNNs and the human visual system. These comparisons with human performance could be used to guide future development of more robust DNNs.

研究动机与目标

  • 评估当图像因噪声和模糊等视觉失真而退化时,深度神经网络(DNN)是否仍能保持或超越人类在图像分类任务中的表现。
  • 通过分析不同失真水平下人类与DNN分类错误的相关性,评估其识别策略的相似性。
  • 探究人类视觉系统对图像失真的鲁棒性是否源于当前DNN中所缺乏的表征能力。
  • 通过借鉴人类视觉系统对失真的抗性,为未来开发更具鲁棒性的DNN提供指导。

提出的方法

  • 对15名人类受试者在添加了不同水平高斯噪声和高斯模糊的图像上进行了分类实验。
  • 采用微调后的VGG16网络作为DNN基线模型,其在干净ImageNet数据上预训练,并在失真数据上进一步微调。
  • 在不同失真水平下,分别计算人类与DNN预测的混淆矩阵,以分析误分类模式。
  • 计算人类与DNN误分类之间的皮尔逊相关系数,以量化不同失真水平下错误相似性的程度。
  • 通过识别人类成功而DNN失败的案例,以及反之的案例,分析图像刺激的难度。
  • 使用标准ImageNet的top-5错误率评估在干净图像和失真图像上的性能表现。

实验结果

研究问题

  • RQ1当图像因噪声和模糊而退化时,深度神经网络是否仍能保持或超越人类在图像分类任务中的表现?
  • RQ2随着图像失真水平的增加,人类与DNN分类错误之间的相关性如何变化?
  • RQ3人类视觉系统与DNN在图像内部表征上是否存在根本性差异,这一差异是否可通过错误模式体现?
  • RQ4在失真数据上微调DNN是否能缩小其与人类受试者之间的性能差距?

主要发现

  • 在经高斯噪声和模糊退化的图像上,人类受试者的分类准确率显著高于DNN,尤其在高失真水平下表现更优。
  • 在所有失真水平下,人类与DNN误分类之间的皮尔逊相关系数均较低,表明两者错误模式重叠极少。
  • 原始预训练的VGG16模型在大多数失真图像上倾向于将它们错误分类为同一两个类别,表现出类似对抗攻击的普遍性误分类行为。
  • 微调后的VGG16模型减少了这种普遍性误分类的倾向,表明通过微调可提升模型鲁棒性。
  • 部分图像被人类正确分类但DNN分类错误,反之亦然,凸显了人类与DNN识别策略的差异。
  • 尽管经过微调,DNN在失真图像上的表现仍显著低于人类,表明其鲁棒性差距依然存在。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。