Skip to main content
QUICK REVIEW

[论文解读] Two Is Harder To Recognize Than Tom: the Challenge of Visual Numerosity for Deep Learning

Xiaolin Wu, Xi Zhang|arXiv (Cornell University)|Feb 9, 2018
Cognitive and developmental aspects of mathematical skills参考文献 35被引用 1
一句话总结

本文研究了深度卷积神经网络(DCNNs)在强监督条件下是否能够学习视觉数量感——即感知集合中项目数量的能力。即使在小数字的多样化视觉表示下,DCNNs 仍无法超越表面视觉变化进行泛化,揭示了其对统计模式而非语义理解的依赖,凸显了当前深度学习在核心认知任务中的根本局限。

ABSTRACT

In the spirit of Turing test, we design and conduct a set of visual numerosity experiments with deep neural networks. We train DCNNs with a large number of sample images that are varied visual representations of small natural numbers, towards the objective of learning numerosity perception. Numerosity perception, or the number sense, is a cognitive construct so primary and so critical to the survival and well-being of our species that is considered and proven to be innate to human infants, and it responds to visual stimuli prior to the development of any symbolic skills, language or arithmetic. Somewhat surprisingly, in our experiments, even with strong supervision, DCNNs cannot see through superficial variations in visual representations and distill the abstract notion of natural number, a task that children perform with high accuracy and confidence. DCNNs are apparently easy to be confused by geometric variations and fail to grasp the topological essence in numerosity. The failures of DCNNs in the proposed cognition experiments also expose their overreliance on sample statistics at the expense of image semantics. Our findings are, we believe, significant and thought-provoking in the interests of AI research, because visual-based numerosity is a benchmark of minimum sort for human intelligence.

研究动机与目标

  • 评估深度学习模型是否能通过视觉输入获得类似人类的先天数感。
  • 研究 DCNNs 是否能跨几何与视觉变化泛化以识别抽象数量感。
  • 揭示深度学习在捕捉视觉感知中的拓扑与语义本质方面的局限性。
  • 测试视觉数量感是否可作为人工智能中人类水平智能的最小基准。

提出的方法

  • 设计了一个大规模的数据集,包含小自然数(1–10)的多样化视觉表示,用于训练 DCNNs。
  • 在包含不同形状、排列和纹理的多样化视觉刺激上,使用强监督训练深度卷积神经网络。
  • 在未见过的视觉变化上评估模型性能,以测试其对训练分布之外的泛化能力。
  • 分析模型预测,评估其对低级统计特征与高级语义理解的数量感的依赖程度。
  • 使用受控的视觉刺激,将几何变化与语义内容分离,测量模型的鲁棒性。
  • 将模型行为与人类婴儿的先天数感进行比较,以评估其认知合理性。

实验结果

研究问题

  • RQ1DCNNs 是否能在无符号基础的情况下,通过多样化视觉表示学习到数量感的抽象概念?
  • RQ2DCNNs 在数量感感知中在多大程度上依赖于训练数据中的统计模式,而非语义或拓扑不变性?
  • RQ3视觉刺激中的几何与感知变化在多大程度上影响 DCNN 在数量感任务中的表现?
  • RQ4视觉数量感是否可作为评估人工智能中人类水平认知能力的合理最小基准?

主要发现

  • 即使有强监督和大规模训练数据,DCNNs 仍无法在数量感刺激的视觉变化间实现泛化。
  • 当在新型视觉排列上测试时,模型表现出高错误率,表明其对底层数字概念的抽象能力差。
  • 性能下降主要源于对表面视觉统计特征的过度依赖,而非语义或拓扑理解。
  • 在不同视觉配置下无法识别相同数字,揭示了深度学习在核心认知推理能力上的根本性差距。
  • 结果表明,视觉数量感是人工智能的一个非平凡基准,暴露了当前深度学习架构的局限性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。