[论文解读] Human vs Machine Attention in Neural Networks: A Comparative Study.
本研究系统比较了在三种计算机视觉任务中,人类视觉注意与深度神经网络中人工注意机制的表现,使用真实的人类注视数据和多种网络架构。研究发现,将人工注意与人类注意对齐可提升模型性能与可解释性,尤其在高层次视觉任务中效果显著。
Human visual system can selectively attend to parts of a scene for quick perception, a biological mechanism known as Human attention. Inspired by this, recent deep learning models encode attention mechanisms to focus on the most task-relevant parts of the input signal for further processing, which is called Machine/Neural/Artificial attention. Understanding the relation between human and machine attention is important for interpreting and designing neural networks. Many works claim that the attention mechanism offers an extra dimension of interpretability by explaining where the neural networks look. However, recent studies demonstrate that artificial attention maps do not always coincide with common intuition. In view of these conflicting evidence, here we make a systematic study on using artificial attention and human attention in neural network design. With three example computer vision tasks, diverse representative backbones, and famous architectures, corresponding real human gaze data, and systematically conducted large-scale quantitative studies, we quantify the consistency between artificial attention and human visual attention and offer novel insights into existing artificial attention mechanisms by giving preliminary answers to several key questions related to human and artificial attention mechanisms. Overall results demonstrate that human attention can benchmark the meaningful `ground-truth' in attention-driven tasks, where the more the artificial attention is close to human attention, the better the performance; for higher-level vision tasks, it is case-by-case. It would be advisable for attention-driven tasks to explicitly force a better alignment between artificial and human attention to boost the performance; such alignment would also improve the network explainability for higher-level computer vision tasks.
研究动机与目标
- 探究人类视觉注意与深度神经网络中人工注意机制之间的一致性。
- 评估人工注意图是否真正反映了人类直觉所预期的任务相关特征。
- 确定将人工注意与人类注视对齐是否能提升模型性能与可解释性。
- 为注意驱动的计算机视觉任务提供有意义注意的实证基准。
- 为设计更可解释、更高效的注意机制提供洞见。
提出的方法
- 本研究使用人类受试者在图像感知任务中收集的真实注视数据,作为人类注意的代理。
- 在三种计算机视觉任务(图像分类、目标检测、图像字幕生成)中,评估多种最先进的神经网络架构及其不同主干网络。
- 从预训练模型中提取人工注意图,并使用相关性、交并比等对齐度量指标,与人类注视数据进行定量比较。
- 开展大规模、系统的实验,以评估注意对齐与下游任务性能之间的关系。
- 采用统计分析方法,确定人工注意与人类注意对齐程度的提升是否带来更高的模型准确率与鲁棒性。
- 性能评估不仅包括准确率,还通过人工评估和与显著性图的一致性,评估注意图的可解释性。
实验结果
研究问题
- RQ1在不同计算机视觉任务中,人工注意与人类视觉注意的一致性如何?
- RQ2将人工注意与人类注视对齐在多大程度上能提升模型性能?
- RQ3人工注意与人类注意之间的对齐程度是否与模型可解释性相关?
- RQ4注意对齐在不同任务中的有效性是否存在差异?
- RQ5人类注视数据能否作为评估人工注意机制的可靠真实标签?
主要发现
- 人工注意图通常与人类注视模式存在偏差,挑战了注意机制本质上具有可解释性的假设。
- 在低层次视觉任务中,人工注意与人类注意的对齐程度越高,模型性能提升越显著。
- 在高层次视觉任务中,注意对齐的性能增益具有情境依赖性,并非普遍适用。
- 通过训练强制人工注意与人类注意对齐,可同时提升模型准确率与可解释性。
- 人类注意可作为注意驱动任务中有效注意的可靠基准。
- 本研究提供了实证证据,表明当注意机制反映类人聚焦行为时,其效果更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。