Skip to main content
QUICK REVIEW

[论文解读] GuessWhat?! Visual object discovery through multi-modal dialogue

Harm de Vries, Florian Strub|arXiv (Cornell University)|Nov 23, 2016
Multimodal Machine Learning Applications参考文献 36被引用 18
一句话总结

本文介绍了 GuessWhat?!,一个大规模、人工标注的数据集,包含15万次多轮视觉对话,涉及来自MS COCO的66,537张图像中的831,889对问答对。该框架通过一种双人游戏的形式,使研究者能够开展基于视觉的语义理解研究:一名代理通过提问是/否问题来识别目标对象,另一名代理则根据隐藏对象的真实情况提供回答。深度学习基线模型表明,通过互动式、上下文感知的对话实现语言与视觉的对齐具有相当大的挑战性。

ABSTRACT

We introduce GuessWhat?!, a two-player guessing game as a testbed for research on the interplay of computer vision and dialogue systems. The goal of the game is to locate an unknown object in a rich image scene by asking a sequence of questions. Higher-level image understanding, like spatial reasoning and language grounding, is required to solve the proposed task. Our key contribution is the collection of a large-scale dataset consisting of 150K human-played games with a total of 800K visual question-answer pairs on 66K images. We explain our design decisions in collecting the dataset and introduce the oracle and questioner tasks that are associated with the two players of the game. We prototyped deep learning models to establish initial baselines of the introduced tasks.

研究动机与目标

  • 通过模拟人类视觉推理的对话方式,建立一个可扩展的、用于视觉定位和多模态对话的交互式基准。
  • 解决在合作游戏设置中,通过序列化、上下文感知的提问方式,将自然语言与视觉场景进行对齐的挑战。
  • 提供一个大规模、人工标注的数据集,以支持视觉与语言模型在交互式、目标导向对话中的训练与评估。
  • 为视觉对话中的提问者和Oracle角色建立基线模型,以评估语言对齐与视觉推理的性能。

提出的方法

  • GuessWhat?! 游戏被设计为一种合作性的双人任务:提问者通过提问是/否问题来识别场景中的目标对象,而Oracle则根据隐藏对象的真实情况提供真实回答。
  • 从人类玩家在66,537张MS COCO图像上收集了155,280条对话(共831,889对问答),并明确设计了多种策略以确保语言和视觉推理的多样性与真实性。
  • 提问者任务采用基于VGG-19图像特征的层次化循环编码器-解码器(HRED)架构进行建模,通过最大化问题序列的条件对数似然进行训练。
  • Oracle任务被建模为基于图像特征和问题嵌入的二分类头,根据目标对象是否存在来预测是/否答案。
  • 基线模型在两种设置下进行评估:QGEN+GT(使用真实答案进行训练)和QGEN+ORACLE(使用Oracle生成的答案进行训练),以评估对错误累积的鲁棒性。
  • 评估使用一个猜谜者模型,该模型根据对话历史预测目标对象,以错误率作为主要指标,评估生成问题的质量。

实验结果

研究问题

  • RQ1如何收集一个大规模、人工标注的视觉对话数据集,以支持视觉语义理解与视觉推理的研究?
  • RQ2在多轮视觉对话设置中,训练一个能够生成上下文相关、信息丰富的提问的生成器,其关键挑战是什么?
  • RQ3在真实世界的交互式环境中,不完美Oracle和猜谜者模型导致的错误累积如何影响提问生成器的性能?
  • RQ4深度学习模型(如带有视觉条件的HRED)在多模态对话任务中,能在多大程度上实现人类水平的表现?
  • RQ5GuessWhat?! 框架能否支持下游任务,如少样本学习、迁移学习或多语言对话?

主要发现

  • 人工标注的 GuessWhat?! 数据集包含155,280条对话,涵盖831,889对问答对,涉及66,537张图像,为视觉对话研究提供了丰富的资源。
  • 在人类生成对话上进行训练的猜谜者模型,在识别目标对象时达到38.7%的错误率,确立了强有力的基线表现。
  • QGEN+GT 模型(使用真实答案进行训练)的错误率为53.2%,表明提问生成器能够生成具有一定信息量的问题。
  • QGEN+ORACLE 模型(使用Oracle生成的答案进行训练)表现显著更差,错误率高达66.0%,凸显了在交互系统中错误累积的挑战。
  • 随机基线的错误率为82.9%,证实该任务具有非平凡性,且所提模型学习到了超越随机猜测的有意义模式。
  • 结果表明,尽管当前模型能够生成合理的提问,但在真实推理环境下与人类水平的推理能力相比,仍存在显著性能差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。