QUICK REVIEW

[论文解读] Learning to Compose Neural Networks for Question Answering

Jacob Andreas, Marcus Rohrbach|arXiv (Cornell University)|Jan 7, 2016

Multimodal Machine Learning Applications被引用 121

一句话总结

一个动态神经模块网络自动组装可微分模块，形成针对问题的架构以回答关于图像和结构化知识库的问题，使用仅包含（world, question, answer）三元组的强化学习进行训练。

ABSTRACT

We describe a question answering model that applies to both images and structured knowledge bases. The model uses natural language strings to automatically assemble neural networks from a collection of composable modules. Parameters for these modules are learned jointly with network-assembly parameters via reinforcement learning, with only (world, question, answer) triples as supervision. Our approach, which we term a dynamic neural model network, achieves state-of-the-art results on benchmark datasets in both visual and structured domains.

研究动机与目标

使用模块化神经组件使对视觉与结构化世界表示的问答成为可能。
在没有布局监督的情况下，自动从问题组装网络布局。
联合训练模块和布局预测器以最大化答案准确度。
利用连续表示来连接感知与结构化推理。

提出的方法

定义一组可微分的神经模块库（例如 find、lookup、relate、describe、exists）。
将问题表示为布局 z，指示如何将模块组合成神经网络（JzKw）以处理世界表示 w。
在固定 z 时，通过反向传播进行自动监督来训练模块；使用 REINFORCE 学习布局选择 p(z|x; θℓ) ，无需布局注释。
将从依存句法生成的候选布局打分并缩小到一个小的候选集合；通过神经评分模型选择布局并使用策略梯度进行优化。
执行所选布局以获得 p(y|z,w; θe)；通过标准反向传播更新 θe，并通过基于答案准确性的奖励的 REINFORCE 梯度更新 θℓ。
通过引入在实体或知识库元素上的注意力作用的 relate 和 exists 模块，将模块扩展到非视觉世界。

实验结果

研究问题

RQ1一个系统是否能够从问题出发，跨越不同领域（图像和结构化数据）学习组成神经网络以给出答案？
RQ2在不对布局进行监督的情况下，模块参数和动态网络布局的联合学习是否可以提升问答性能？
RQ3连续的、可微分的模块是否能够在结构化世界表示以及视觉数据上实现有效推理？
RQ4仅使用（world, question, answer）三元组来训练布局预测，强化学习是否为可行的方法？

主要发现

通过动态组合神经模块，在视觉问答（VQA）和组合地理问答任务（GeoQA）上达到最新水平。
在 VQA 上通过一个选择简单布局（describe 和 and find）的动态网络超越了以往模型；在 GeoQA 上，其准确率超过了纯逻辑模型和固定结构的 NMN。
动态网络在需要组合推理和量化的问题上尤有优势。
模型学会将注意力集中在图像中的相关区域以及知识库中的相关实体上，在许多情形下实现了准确的答案。
在 GeoQA+Q（含量词）的情形中，动态布局预测器相对于固定结构基线取得了显著改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。