QUICK REVIEW

[论文解读] Creativity: Generating Diverse Questions using Variational Autoencoders

Unnat Jain, Ziyu Zhang|arXiv (Cornell University)|Apr 11, 2017

Multimodal Machine Learning Applications参考文献 65被引用 34

一句话总结

本文提出一种基于LSTM解码的变分自编码器（VAE），通过单张图像输入生成多样且富有创意的问题。通过从广泛的潜在空间分布中采样，该模型能够生成大量字面性与推理性问题，每张图像最多生成63.83个独特问题，其中36.92%在训练集中未出现，展现出强大的生成多样性与超越简单视觉识别的人类级推理能力。

ABSTRACT

Generating diverse questions for given images is an important task for computational education, entertainment and AI assistants. Different from many conventional prediction techniques is the need for algorithms to generate a diverse set of plausible questions, which we refer to as "creativity". In this paper we propose a creative algorithm for visual question generation which combines the advantages of variational autoencoders with long short-term memory networks. We demonstrate that our framework is able to generate a large set of varying questions given a single input image.

研究动机与目标

为解决自动化视觉问题生成中多样性不足的问题，该问题限制了教育和对话式AI系统中的用户参与度。
开发一种生成模型，能够基于单张图像生成不仅准确，而且富有创意的问题——涵盖字面性到推理性问题。
通过避免重复的手动设计问题模式，使AI系统能够维持用户的兴趣。
探究潜在空间采样策略如何影响生成问题的多样性与新颖性。
评估模型生成需要先验知识（如关于物体、场景或动作）的问题的能力，而不仅依赖直接的视觉线索。

提出的方法

该模型使用变分自编码器将图像特征与问题文本嵌入到共享的低维潜在空间中。
图像特征通过预训练的CNN提取，问题序列则通过基于LSTM的编码器进行编码。
推理过程中，模型从广泛的潜在分布（如U(−20,20)）中采样，以鼓励探索与多样性。
条件LSTM解码器通过关注图像特征嵌入与采样的潜在代码来生成问题。
模型通过重建损失与KL散度联合端到端训练，以正则化潜在空间。
采用不同的采样策略（如标准正态分布与均匀分布）以评估其对问题多样性与新颖性的影响。

实验结果

研究问题

RQ1VAE-LSTM框架能否从单张图像输入中生成大量多样且非冗余的问题？
RQ2潜在空间采样分布的选择如何影响生成问题的多样性与新颖性？
RQ3该模型在多大程度上能生成需要世界知识的推理性问题，而非仅依赖视觉线索？
RQ4在流畅性与多样性方面，该模型与现有基线模型相比表现如何？
RQ5当模型基于误识别或共现视觉模式生成问题时，会表现出哪些类型的失败模式？

主要发现

在Bing数据集上，该模型平均每张图像生成63.83个独特问题，其中36.92%的问题在训练集中未出现。
在COCO数据集上，该模型平均每张图像生成46.10个独特问题，其中26.99%的问题未出现在训练数据中。
在VQG-COCO数据集上，该模型的语料BLEU得分达到0.192，与表现最佳的基线模型在流畅性方面相当。
在VQG-COCO数据集上，该模型的语料METEOR得分达到0.197，表明在语料层面与人类判断高度一致。
在潜在空间中采用U(−20,20)的均匀分布采样，相比标准正态分布采样，显著提升了生成问题的多样性。
失败案例包括识别错误（如将飞机误认为多架飞机）以及共现偏差（如在食物图像中生成关于绿色蔬菜的问题，但图像中并无绿色蔬菜）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。