QUICK REVIEW

[论文解读] Visual Dialog

Abhishek Das, Satwik Kottur|arXiv (Cornell University)|Nov 26, 2016

Multimodal Machine Learning Applications参考文献 52被引用 30

一句话总结

本文提出了视觉对话（Visual Dialog）任务，即人工智能代理通过图像、对话历史和问题进行基于视觉内容的对话。该工作构建了一个大规模数据集（VisDial v0.9，包含约120万组问答对），提出了一类包含晚期融合、层次化RNN和记忆网络的神经模型，并设计了一套基于检索的评估协议，首次实现了功能性的‘视觉聊天机器人’，并通过人类研究量化了当前模型与人类在性能上的显著差距。

ABSTRACT

We introduce the task of Visual Dialog, which requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a question about the image, the agent has to ground the question in image, infer context from history, and answer the question accurately. Visual Dialog is disentangled enough from a specific downstream task so as to serve as a general test of machine intelligence, while being grounded in vision enough to allow objective evaluation of individual responses and benchmark progress. We develop a novel two-person chat data-collection protocol to curate a large-scale Visual Dialog dataset (VisDial). VisDial v0.9 has been released and contains 1 dialog with 10 question-answer pairs on ~120k images from COCO, with a total of ~1.2M dialog question-answer pairs. We introduce a family of neural encoder-decoder models for Visual Dialog with 3 encoders -- Late Fusion, Hierarchical Recurrent Encoder and Memory Network -- and 2 decoders (generative and discriminative), which outperform a number of sophisticated baselines. We propose a retrieval-based evaluation protocol for Visual Dialog where the AI agent is asked to sort a set of candidate answers and evaluated on metrics such as mean-reciprocal-rank of human response. We quantify gap between machine and human performance on the Visual Dialog task via human studies. Putting it all together, we demonstrate the first 'visual chatbot'! Our dataset, code, trained models and visual chatbot are available on this https URL

研究动机与目标

开发一个以视觉理解与自然语言交互为基础的通用机器智能基准测试。
构建一个大规模、多样化的视觉对话数据集（VisDial v0.9），包含120,000张COCO图像中的120万组问答对。
设计并评估一类用于视觉对话的神经编码器-解码器模型，包括晚期融合、层次化循环神经网络和记忆网络编码器。
提出一种基于检索的评估协议，使用平均倒数排名（mRR）等指标客观评估模型性能。
通过人类研究量化当前最先进模型与人类在视觉对话任务上的性能差距。

提出的方法

采用双人对话数据收集协议，收集关于图像的多样化、上下文丰富的对话，确保对话具有视觉依据且语言自然。
VisDial v0.9数据集包含约120,000张COCO图像，每张图像对应1组对话，每组对话包含10组问答对，总计约120万组问答对。
提出了三种编码器架构：晚期融合（早期融合图像与文本特征）、层次化循环编码器（使用RNN处理对话历史）和记忆网络（建模对话历史中的长距离依赖）。
评估了两种解码器：生成式解码器（自回归生成）和判别式解码器（对候选答案进行排序）。
引入了一种基于检索的评估协议，模型对候选答案进行排序，并使用平均倒数排名（mRR）等指标进行评分。
通过人类研究测量了模型与人类在视觉对话任务上的性能差距。

实验结果

研究问题

RQ1如何设计视觉对话系统，以在多轮对话中保持上下文连贯性和视觉依据？
RQ2在统一框架中，哪些神经架构最有效地联合编码图像、对话历史和问题？
RQ3如何客观评估视觉对话模型的性能，使其能反映类人的推理与语言理解能力？
RQ4当前最先进模型与人类在视觉对话任务上的性能差距有多大？
RQ5能否有效收集并利用大规模、可扩展的、基于视觉的多轮对话数据集，用于训练和基准测试视觉代理？

主要发现

VisDial v0.9数据集包含120,000张图像，每张图像有10组问答对，总计120万次对话轮次，为视觉对话系统的全面评估提供了支持。
采用记忆网络和层次化循环编码器的神经模型在视觉对话基准测试中优于多个复杂基线模型。
基于检索的评估协议结合平均倒数排名（mRR）提供了可靠且客观的指标，可用于对比模型性能与人类回答。
人类研究表明，最佳模型与人类表现之间存在显著性能差距，表明在上下文推理和视觉依据方面仍有改进空间。
所提出的视觉聊天机器人系统成功实现了端到端的对话式视觉理解，是该类系统的首次实现。
该数据集、代码、训练好的模型以及交互式视觉聊天机器人均已公开，供研究与开发使用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。