QUICK REVIEW

[论文解读] MeetUp! A Corpus of Joint Activity Dialogues in a Visual Environment

Nikolai Ilinykh, Sina Zarrieß|arXiv (Cornell University)|Jul 11, 2019

Multimodal Machine Learning Applications参考文献 36被引用 24

一句话总结

本文提出了 MeetUp!，一种新颖的任务与语料库，用于视觉环境中双人协作的联合活动对话，两名玩家需在2D环境中协同导航以会面，依赖视觉与对话的语境定位。该数据集捕捉了丰富的互动对话现象，如轮流发言、策略协商及感知分歧，为视觉与语言研究提供了一种比传统参考游戏或问答基准更具自然性的替代方案。

ABSTRACT

Building computer systems that can converse about their visual environment is one of the oldest concerns of research in Artificial Intelligence and Computational Linguistics (see, for example, Winograd's 1972 SHRDLU system). Only recently, however, have methods from computer vision and natural language processing become powerful enough to make this vision seem more attainable. Pushed especially by developments in computer vision, many data sets and collection environments have recently been published that bring together verbal interaction and visual processing. Here, we argue that these datasets tend to oversimplify the dialogue part, and we propose a task---MeetUp!---that requires both visual and conversational grounding, and that makes stronger demands on representations of the discourse. MeetUp! is a two-player coordination game where players move in a visual environment, with the objective of finding each other. To do so, they must talk about what they see, and achieve mutual understanding. We describe a data collection and show that the resulting dialogues indeed exhibit the dialogue phenomena of interest, while also challenging the language & vision aspect.

研究动机与目标

为解决现有视觉与语言数据集在对话动态方面过度简化的局限，这些数据集强制执行僵化且不对称的交互协议。
创建一种对称的协作任务，两名玩家在无预设角色的前提下，均需对实现共同目标（在未知环境中会面）负责。
收集体现真实对话语境定位现象的对话，包括轮流发言、澄清与关于感知分类的协商（例如：'那是镜子还是画？'）。
提供一个可扩展的众包数据集，包含超过400段对话，支持对话建模与情境化交流的语言学分析。
推动开发能够整合视觉感知、对话状态追踪与动态交互环境中联合策略形成的模型。

提出的方法

设计一个基于2D网格的视觉环境中的双人协作游戏，玩家需在事先不知晓布局的情况下会面。
实施对称的交互协议，不设定提问者/回答者或领导者/跟随者角色，以促进双方平等参与。
通过众包收集对话，玩家描述所见内容并协调行动以定位彼此。
采用部分可观察的状态空间：每位玩家仅能看见自身位置与周围环境，另一名玩家的位置需通过对话推断。
追踪关键对话现象，如共指、策略一致（例如：'我来找你'）及感知分歧（例如：'那是镜子还是画？'）。
将游戏建模为部分可观察的马尔可夫决策过程（POMDP），要求智能体维持对自身路径、公开话语、推断位置及当前策略的记忆。

实验结果

研究问题

RQ1如何使视觉与语言数据集更好地捕捉现实对话中动态、互动的特性，而非仅限于静态参考或问答对？
RQ2在协作视觉任务中，玩家在多大程度上自然地参与对话语境定位现象，如轮流发言、澄清与策略协商？
RQ3在视觉环境中，对称的目标导向对话任务是否能激发出比传统非对称参考游戏更丰富的语言与多模态互动？
RQ4当双方对环境的视觉访问均有限且不对称时，实现相互理解面临哪些关键的语言与感知挑战？
RQ5对话状态追踪如何扩展以不仅包含对象指代，还涵盖不断演化的联合策略与感知分歧？

主要发现

所收集的语料包含超过400段来自众包互动的对话，展现出丰富的对话现象，如轮流发言、澄清与相互策略协商。
玩家频繁出现感知分歧，例如就某物体是否为镜子或画作展开辩论，表明对感知分类的积极协商。
平均话语长度为1.48轮，表明对话参与度高，且闲聊极少。
最常见的对话开头包括疑问句（例如：'那是镜子吗？'）与陈述句（例如：'我看到一扇门'），反映出询问与信息共享之间的平衡。
玩家常就策略达成一致，如'我来找你'或'我们四处走走'，表明存在联合规划与共享目标追踪。
数据表明，需要开发能够追踪视觉内容与指代关系，同时兼顾不断演化的对话策略与共处智能体推断状态的模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。