QUICK REVIEW

[论文解读] Learning to Count Objects in Natural Images for Visual Question Answering

Yan Zhang, Jonathon Hare|arXiv (Cornell University)|Feb 15, 2018

Multimodal Machine Learning Applications参考文献 25被引用 155

一句话总结

本文提出一个可微分的计数组件，通过对对象提案去重来实现基于软注意力的鲁棒计数，在 VQA v2 的数字问题上达到最先进的准确率，并在不损害其他类别的前提下提升以计数为焦点的指标。

ABSTRACT

Visual Question Answering (VQA) models have struggled with counting objects in natural images so far. We identify a fundamental problem due to soft attention in these models as a cause. To circumvent this problem, we propose a neural network component that allows robust counting from object proposals. Experiments on a toy task show the effectiveness of this component and we obtain state-of-the-art accuracy on the number category of the VQA v2 dataset without negatively affecting other categories, even outperforming ensemble models with our single model. On a difficult balanced pair metric, the component gives a substantial improvement in counting over a strong baseline by 6.6%.

研究动机与目标

识别使用标准软注意力的 VQA 中计数为何困难。
开发一个可微分的计数组件，用于对对象提案进行去重。
将计数组件与使用注意力的现有 VQA 模型集成。
在 VQA v2 和一个玩具计数任务上展示改进的计数性能。
表现出在对象提案重叠的鲁棒性，同时不牺牲非计数任务的性能。

提出的方法

将注意力加权的对象提案通过外积 A = a a^T 转换为图形，以将提案表示为节点，重叠关系表示为边。
通过基于 IoU 的距离矩阵 D 对 A 进行屏蔽，以去除同一对象内部的重复边，使用可微激活来处理部分重叠（tilde A = f1(A) ⊙ f2(D)）。
通过为每个提案计算基于相似性的缩放 s_i，估计潜在对象的数量，然后形成计数矩阵 C，使边按相应比例缩放（C = tildeA ⊙ s s^T + diag(s ⊙ f1(a ⊙ a))）。
从 E 推断计数 c，其中 c = sqrt(|E|) 且 |E| = sum(C_ij)；输出一个计数向量 o，使计数在相邻整数之间进行插值编码。
可选择地从注意力和重叠统计中计算置信因子以缩放最终输出（õ = f8(p_a + p_D) · o）。
通过将 top-n 注意力权重输入并将组件输出用作辅助特征，将计数组件与标准 VQA 模型集成。

实验结果

研究问题

RQ1一个在对象提案上运行的可微分计数机制是否能克服 VQA 中软注意力的计数限制？
RQ2如何以可微分的方式对重叠或重复的对象提案进行去重，以恢复真实对象计数？
RQ3将计数组件加入是否能在不降低其他 VQA 类别性能的情况下改进计数问题？
RQ4在玩具计数任务和 VQA v2 的数字类别上，计数组件的实际表现如何？

主要发现

计数组件能够从注意力图中实现鲁棒计数，并可以与标准 VQA 模型集成。
在 VQA v2 上，启用计数的模型在数字问题上比基线获得更高的准确率，且在单模型使用计数组件时甚至优于某些 8-model ensembles。
该方法改善了专注于计数的指标，包括在一个困难的平衡配对计数指标上有显著的 6.6% 提升。
在玩具计数任务上的实验表明，该组件在不同的重叠和噪声条件下均优于简单的注意力求和基线，特别是在中等重叠时。
定性分析表明学习到的激活函数会适应数据集参数，支持计数行为的可解释性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。