Skip to main content
QUICK REVIEW

[论文解读] CIFAR10 to Compare Visual Recognition Performance between Deep Neural Networks and Humans

Tien Ho-Phuoc|arXiv (Cornell University)|Nov 17, 2018
Advanced Neural Network Applications被引用 25
一句话总结

本文对人类与深度神经网络在CIFAR-10数据集上的表现进行了公平且大规模的对比,通过受控实验测量了人类的分类准确率。结果表明,尽管最先进的卷积神经网络(CNN)已达到很高的准确率,但在泛化能力方面仍与人类存在显著差距,尤其是在人类容易识别但对网络而言具有挑战性的图像上。

ABSTRACT

Visual object recognition plays an essential role in human daily life. This ability is so efficient that we can recognize a face or an object seemingly without effort, though they may vary in position, scale, pose, and illumination. In the field of computer vision, a large number of studies have been carried out to build a human-like object recognition system. Recently, deep neural networks have shown impressive progress in object classification performance, and have been reported to surpass humans. Yet there is still lack of thorough and fair comparison between humans and artificial recognition systems. While some studies consider artificially degraded images, human recognition performance on dataset widely used for deep neural networks has not been fully evaluated. The present paper carries out an extensive experiment to evaluate human classification accuracy on CIFAR10, a well-known dataset of natural images. This then allows for a fair comparison with the state-of-the-art deep neural networks. Our CIFAR10-based evaluations show very efficient object recognition of recent CNNs but, at the same time, prove that they are still far from human-level capability of generalization. Moreover, a detailed investigation using multiple levels of difficulty reveals that easy images for humans may not be easy for deep neural networks. Such images form a subset of CIFAR10 that can be employed to evaluate and improve future neural networks.

研究动机与目标

  • 建立一个公平的基准,用于比较人类与深度神经网络在视觉识别方面的表现。
  • 在受控条件下评估人类在广泛使用的CIFAR-10数据集上的分类准确率。
  • 识别出深度网络相对于人类表现较差的图像子集,揭示泛化能力的差距。
  • 为未来神经网络架构的改进提供数据驱动的基础。

提出的方法

  • 开展了大规模的人类实验,以收集人类在完整CIFAR-10数据集上的分类准确率。
  • 使用与训练和评估最先进的深度神经网络相同的CIFAR-10数据集。
  • 根据人类表现将图像划分为不同难度等级,以分析网络在各类难度层级下的行为。
  • 使用相同的测试集和评估协议,将人类准确率与最先进的CNN模型进行比较。
  • 识别出在人类眼中容易但在深度网络中难以处理的CIFAR-10图像子集,为模型改进提供目标。
  • 采用受控且标准化的图像呈现方式,以确保人类表现测量的可靠性。

实验结果

研究问题

  • RQ1人类在CIFAR-10上的视觉识别准确率与最先进的深度神经网络相比如何?
  • RQ2在CIFAR-10中是否存在某些图像子集,使得深度神经网络的表现相对人类较差,尽管整体准确率很高?
  • RQ3当前深度神经网络的泛化能力与人类相比如何,特别是在人类容易识别的图像上?
  • RQ4能否通过识别对网络而言困难但对人类而言简单的样本,来指导未来模型的开发?
  • RQ5在视觉识别任务的哪个难度级别上,人类与深度网络之间的性能差距最大?

主要发现

  • 人类在CIFAR-10上的分类准确率约为95%,显著高于最先进的深度神经网络。
  • 最先进的深度神经网络在CIFAR-10上达到了约96%的准确率,但这并不能反映其真实的泛化能力。
  • 发现了一部分CIFAR-10图像,人类能轻松识别(人类准确率高),但对深度神经网络而言却特别困难。
  • 人类与网络之间的性能差距在具有细微或复杂视觉线索的图像上最为明显,表明网络在泛化方面存在局限。
  • 对人类容易但对网络困难的图像构成CIFAR-10中一个独特且可识别的子集,提示可作为评估鲁棒性的新基准。
  • 结果表明,即使在像CIFAR-10这样相对简单的数据集上,当前的深度神经网络在视觉泛化能力方面仍远未达到人类水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。