Skip to main content
QUICK REVIEW

[论文解读] Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7

Huda Alamri, Vincent Cartillier|arXiv (Cornell University)|Jun 1, 2018
Multimodal Machine Learning Applications参考文献 8被引用 25
一句话总结

本文介绍了在DSTC7上举办的视听场景感知对话(AVSD)挑战赛,这是一个新型任务与数据集,旨在训练端到端对话系统,通过多模态输入(视频、音频和对话历史)生成与视频内容上下文相关的响应。该挑战赛通过nlg-eval自动评估指标评估系统生成自然、信息丰富响应的能力,参赛者使用来自CHARADES和Kinetics视频的人工标注对话数据进行训练。

ABSTRACT

Scene-aware dialog systems will be able to have conversations with users about the objects and events around them. Progress on such systems can be made by integrating state-of-the-art technologies from multiple research areas including end-to-end dialog systems visual dialog, and video description. We introduce the Audio Visual Scene Aware Dialog (AVSD) challenge and dataset. In this challenge, which is one track of the 7th Dialog System Technology Challenges (DSTC7) workshop1, the task is to build a system that generates responses in a dialog about an input video

研究动机与目标

  • 开发能够利用多模态输入生成关于动态视觉场景自然且上下文相关的响应的端到端对话系统。
  • 通过支持关于视频中事件与物体的场景感知对话,弥合当前对话系统在静态图像理解之外的差距。
  • 通过统一的基准和挑战,推进视频描述、视觉对话与端到端神经对话模型的整合。
  • 通过客观指标(nlg-eval)和大规模人工标注数据集,为AVSD提供标准化评估框架。
  • 通过发布包含7043个训练、732个验证和733个测试视频对话会话的数据集,推动多模态、时序性和交互式对话系统的研究。

提出的方法

  • AVSD挑战赛采用双任务设置:任务1(视频与文本)和任务2(仅文本),每个任务均包含两个版本(a:无外部数据;b:有外部数据)。
  • 参赛者需基于视频、音频和对话历史生成对话响应,使用来自图像、运动、音频和语音模态的输入特征。
  • 数据集通过Amazon Mechanical Turk收集,一名工作者(回答者)观看视频并回答另一名工作者(提问者)的问题,后者仅能查看三张静态帧。
  • 经过10轮对话后,提问者生成一个视频描述,总结事件,形成完整的对话轮次序列。
  • 训练数据源自CHARADES数据集(7043个训练、732个验证、733个测试视频),未来计划扩展至Kinetics。
  • 评估通过nlg-eval执行,计算自动指标(如BLEU、METEOR、ROUGE、CIDER),将系统输出与真实答案进行比较。

实验结果

研究问题

  • RQ1端到端神经对话模型在使用多模态输入时,能否有效生成关于动态视频内容的上下文相关响应?
  • RQ2与仅使用文本的基线相比,整合视频、音频和对话历史在多大程度上提升了响应质量?
  • RQ3在人工标注的视频对话数据上训练的系统,能否泛化以生成自然、信息丰富且时序连贯的响应?
  • RQ4客观评估指标(如nlg-eval)在预测多模态对话中人类对响应质量判断方面有多有效?
  • RQ5外部数据对视听场景感知对话生成性能有何影响?

主要发现

  • AVSD挑战赛提供了来自CHARADES数据集的大型数据集,包含7043个训练、732个验证和733个测试对话会话,附有人工标注的对话和视频描述。
  • 该数据集捕捉了聚焦于视频中时序事件与动作的多轮对话,提问者依赖静态帧推断场景动态。
  • 该挑战赛支持两个主要任务:(1) 使用视频和文本输入,(2) 仅使用文本,支持启用或禁用外部数据。
  • 评估通过nlg-eval执行,该工具计算标准自动指标(BLEU、METEOR、ROUGE、CIDER)以评估响应质量。
  • 该数据集旨在支持多模态对话、视频描述和视觉对话的研究,整合时间、视觉和听觉线索。
  • 该挑战赛旨在推动理解并响应真实世界动态视觉场景的端到端对话系统训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。