[论文解读] Learning to Reason: End-to-End Module Networks for Visual Question Answering
本文介绍 End-to-End Module Networks (N2NMNs),它们从问题学习预测实例特定的网络布局,并使用一组带注意力的神经模块执行视觉问答。通过端到端训练并结合有监督的预训练和强化学习,在 CLEVR 上实现了强劲提升,在 VQA 上也取得了具有竞争力的结果。
Natural language questions are inherently compositional, and many are most easily answered by reasoning about their decomposition into modular sub-problems. For example, to answer "is there an equal number of balls and boxes?" we can look for balls, look for boxes, count them, and compare the results. The recently proposed Neural Module Network (NMN) architecture implements this approach to question answering by parsing questions into linguistic substructures and assembling question-specific deep networks from smaller modules that each solve one subtask. However, existing NMN implementations rely on brittle off-the-shelf parsers, and are restricted to the module configurations proposed by these parsers rather than learning them from data. In this paper, we propose End-to-End Module Networks (N2NMNs), which learn to reason by directly predicting instance-specific network layouts without the aid of a parser. Our model learns to generate network structures (by imitating expert demonstrations) while simultaneously learning network parameters (using the downstream task loss). Experimental results on the new CLEVR dataset targeted at compositional question answering show that N2NMNs achieve an error reduction of nearly 50% relative to state-of-the-art attentional approaches, while discovering interpretable network architectures specialized for each question.
研究动机与目标
- 通过学习将问题分解为子任务来解决视觉问答中的组合推理,而不依赖外部解析器。
- 从问题中预测实例特定的网络布局,并据此组装神经模块。
- 端到端联合训练布局策略和模块参数,结合有监督(行为克隆)与强化学习信号。
- 显示模块化、以注意力驱动的架构在可解释性和在组合性 VQA 基准上的性能提升。
提出的方法
- 引入一组神经模块库(find、relocate、and、or、filter、describe 等),它们在图像注意力图和文本特征上进行操作。
- 将每个模块表示为参数化函数,接受零个、一个或两个注意力图以及图像和问题特征。
- 通过一个序列到序列的 RNN 对问题词进行软注意力,预测以反向波兰表示法表达的问题特定布局,以生成模块参数。
- 组装并执行所预测布局所描述的网络以给出答案。
- 通过对布局的期望损失进行端到端优化,使用带基线的策略梯度以降低方差,并可选地通过从专家布局进行行为克隆进行预训练。
- 使用对问题词的软注意力来提供模块特定的文本参数,而不是硬编码的词分配。
实验结果
研究问题
- RQ1端到端学习的布局策略是否能够为每个问题预测出有效的模块布局,而不依赖外部解析器?
- RQ2基于软注意力的文本参数是否相较于固定文本参数提升灵活性和性能?
- RQ3端到端训练(有或没有初始有监督克隆)是否能够产生可解释、面向问题的推理架构,并在组合性 VQA 任务上提高问答准确性?
- RQ4该方法是否能在 CLEVR 上达到最新状态的结果,在 VQA 数据集上实现具有竞争力的结果?
主要发现
- 在 CLEVR 上,该模型实现了强劲提升,接近专家水平的行为克隆结果,并且通过策略搜索实现了显著提升,超越了若干基线。
- 在 shapes 数据上,行为克隆达到 100% 的准确率,且从零开始的策略搜索达到 96.19%。
- 在 CLEVR 测试集上,使用克隆后的策略搜索方法总体准确率达到 83.7%,超越了以往的 NMN 基线和许多非模块化方法。
- 在 VQA 上,采用克隆专家或克隆后策略搜索的模型达到具有竞争力的准确性,超过 NMN 和 D-NMN,且在相似视觉特征下接近 MCB 结果。
- 该方法产生可解释、实例特定的网络布局和模块化架构,能够适应每个问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。