Skip to main content
QUICK REVIEW

[论文解读] Clicktionary: A Web-based Game for Exploring the Atoms of Object Recognition

Drew Linsley, Sven Eberhardt|arXiv (Cornell University)|Jan 10, 2017
Visual Attention and Saliency Detection参考文献 29被引用 4
一句话总结

Clicktionary 是一种基于网络的游戏,通过收集用户对图像的点击响应来识别人类用于物体识别的诊断性视觉特征。研究发现,人类识别的特征与眼动的显著性及深度神经网络的相关性图均不同,表明尽管人类与深度卷积网络(DCNs)的识别准确率相似,但其视觉策略存在差异。

ABSTRACT

Although Deep Convolutional Networks (DCNs) are approaching the accuracy of human observers at object recognition, it is unknown whether they leverage similar visual representations to achieve this performance. To address this, we introduce Clicktionary, a web-based game for identifying visual features used by human observers during object recognition. Importance maps derived from the game are consistent across participants and uncorrelated with image saliency measures. These results suggest that Clicktionary identifies image regions that are meaningful and diagnostic for object recognition but different than those driving eye movements. Surprisingly, Clicktionary importance maps are only weakly correlated with relevance maps derived from DCNs trained for object recognition. Our study demonstrates that the narrowing gap between the object recognition accuracy of human observers and DCNs obscures distinct visual strategies used by each to achieve this performance.

研究动机与目标

  • 研究人类用于物体识别的视觉特征,独立于眼动模式。
  • 比较人类识别的诊断性图像区域与深度卷积网络(DCNs)推导出的区域。
  • 评估尽管性能相当,人类与 DCN 的物体识别策略是否趋于一致。
  • 开发一种可扩展的、基于网络的方法,用于收集人类标注的视觉重要性图。

提出的方法

  • 通过基于网络的游戏界面向参与者展示图像,要求其点击认为对物体识别最具诊断性的区域。
  • 通过汇总参与者之间的点击分布生成重要性图,表示感知到的诊断性特征。
  • 将重要性图与图像显著性图(例如基于注视点的)以及在物体识别任务上训练的 DCN 的相关性图进行比较。
  • 通过统计分析评估人类重要性图与显著性图及 DCN 相关性图之间的相关性。
  • 通过重复试验和个体层面的归一化确保参与者间的一致性。
  • 该方法可实现大规模、众包方式的人类感知重要性收集。

实验结果

研究问题

  • RQ1人类观察者在不依赖眼动的情况下,识别出哪些视觉特征作为物体识别的最具诊断性?
  • RQ2人类识别的诊断性特征与基于眼动追踪得出的图像显著性度量相比如何?
  • RQ3人类诊断性特征在多大程度上与用于物体识别的深度卷积网络(DCNs)的相关性图一致?
  • RQ4为何 DCN 与人类在使用不同视觉策略的情况下仍能达到相似的物体识别准确率?

主要发现

  • 从 Clicktionary 衍生出的重要性图在参与者之间具有一致性,表明诊断性图像区域被可靠识别。
  • 人类识别的诊断区域与图像显著性度量无关,表明其反映的是认知诊断性而非视觉注意力。
  • 人类重要性图与用于物体识别的 DCN 相关性图仅表现出微弱相关性。
  • 尽管物体识别准确率几乎完全相同,人类与 DCN 依赖于不同的视觉表征进行分类。
  • 结果表明,人类与 DCN 在性能上相当,并不意味着其采用相同的视觉策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。