QUICK REVIEW

[论文解读] Visual Question Generation as Dual Task of Visual Question Answering

Yikang Li, Nan Duan|arXiv (Cornell University)|Sep 21, 2017

Multimodal Machine Learning Applications参考文献 26被引用 28

一句话总结

本文提出 iQAN，一种端到端的统一框架，通过共享参数和对偶正则化，将视觉问答（VQA）与视觉问题生成（VQG）作为对偶任务进行联合训练。通过使用图像上下文在问题与答案之间进行双向推理，单一模型的联合训练显著提升了 CLEVR 和 VQA2 数据集上的 VQA 准确率，且在多种 VQA 架构上均取得一致性能增益，同时利用 VQG 生成的合成问题-答案对实现高效数据增强。

ABSTRACT

Recently visual question answering (VQA) and visual question generation (VQG) are two trending topics in the computer vision, which have been explored separately. In this work, we propose an end-to-end unified framework, the Invertible Question Answering Network (iQAN), to leverage the complementary relations between questions and answers in images by jointly training the model on VQA and VQG tasks. Corresponding parameter sharing scheme and regular terms are proposed as constraints to explicitly leverage Q,A's dependencies to guide the training process. After training, iQAN can take either question or answer as input, then output the counterpart. Evaluated on the large-scale visual question answering datasets CLEVR and VQA2, our iQAN improves the VQA accuracy over the baselines. We also show the dual learning framework of iQAN can be generalized to other VQA architectures and consistently improve the results over both the VQA and VQG tasks.

研究动机与目标

通过将 VQA 与 VQG 视为具有共享视觉与文本表征的对偶任务，解决两者之间缺乏相互监督的问题。
通过参数共享与对偶约束联合训练 VQA 与 VQG，提升泛化能力与表征学习效果。
探索利用 VQG 模型从低成本标注的答案中生成合成训练数据，以增强 VQA 性能的潜力。
开发一种可泛化的框架，可应用于除基础 Mutan 模型外的多种 VQA 架构。

提出的方法

提出一种基于 Mutan 模型的可逆交叉注意力融合模块，支持双向推理：从图像+问题生成答案，以及从图像+答案生成问题。
引入参数共享机制，使 VQA 与 VQG 共享同一视觉编码器、问题编码器与答案解码器，强化结构对偶性。
在联合训练过程中显式建模问题-答案对之间的依赖关系，应用对偶正则化。
采用交替训练目标，交替预测答案与问题，提升模型鲁棒性与泛化能力。
利用训练好的 VQG 模型从给定答案生成合成问题，实现低成本标注答案下的数据增强。
在预训练生成增强数据后，对真实问题-答案对进行微调，以提升模型质量与分布对齐。

实验结果

研究问题

RQ1通过参数共享与对偶正则化，将 VQA 与 VQG 作为对偶任务联合训练，能否同时提升两者的性能？
RQ2所提出的对偶训练方案在标准基准上，对提升 VQA 准确率与 VQG 生成质量的效果如何？
RQ3iQAN 框架能否泛化至 Mutan 模型以外的其他 VQA 架构？
RQ4在多大程度上可利用 VQG 从标注答案中生成高质量合成训练数据，以提升 VQA 性能？
RQ5当与有限的真实问题-答案对结合时，使用 VQG 生成的问题进行数据增强是否能提升泛化能力？

主要发现

iQAN 在 VQA2 与 CLEVR 基准上达到最先进性能，VQA 准确率超越基线模型。
在 VQA2 数据集上，采用 0.5 的训练数据作为标注的问题-答案对，0.5 作为答案用于数据增强时，双模型训练的 iQAN 模型达到 48.48% 的 top-1 准确率。
该方法在多种 VQA 架构（包括 Mutan、MLB 与 ResNet-LSTM）上均一致提升性能，证明其超越基础模型的泛化能力。
VQG 增强数据策略（VQG+DT+FT）显著优于基线与标准对偶训练，仅使用原始数据 10% 的标注对即达到 39.95% 的 top-1 准确率。
对偶训练方案同时提升了 VQA 与 VQG 的性能，验证了两项任务之间的互补性。
对偶正则化与参数共享有效正则化了训练过程，带来更好的泛化能力与更鲁棒的跨模态表征。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。