Skip to main content
QUICK REVIEW

[论文解读] Vision-and-Dialog Navigation

Jesse Thomason, Michael Murray|arXiv (Cornell University)|Jul 10, 2019
Multimodal Machine Learning Applications参考文献 38被引用 118
一句话总结

引入合作视图-对话导航(CVDN),一个在真实感环境中包含2050段人机对话的数据集,以及一个从对话历史导航(NDH)任务,使用序列到序列基线进行评估。结果发现更长的对话历史与混合人类-计划者监督能提升向目标的导航进展。

ABSTRACT

Robots navigating in human environments should use language to ask for assistance and be able to understand human responses. To study this challenge, we introduce Cooperative Vision-and-Dialog Navigation, a dataset of over 2k embodied, human-human dialogs situated in simulated, photorealistic home environments. The Navigator asks questions to their partner, the Oracle, who has privileged access to the best next steps the Navigator should take according to a shortest path planner. To train agents that search an environment for a goal location, we define the Navigation from Dialog History task. An agent, given a target object and a dialog history between humans cooperating to find that object, must infer navigation actions towards the goal in unexplored environments. We establish an initial, multi-modal sequence-to-sequence model and demonstrate that looking farther back in the dialog history improves performance. Sourcecode and a live interface demo can be found at https://cvdn.dev/

研究动机与目标

  • 激励在人类环境中进行对话驱动的导航研究,以提升机器人协作。
  • 提供一个大规模、真实感的双向自然语言对话数据集,指导导航。
  • 定义从对话历史推断导航动作的导航从对话历史(NDH)任务。
  • 建立基线多模态模型以评估对话上下文对导航的价值。
  • 探索训练信号,包括混合监督,以提升性能。

提出的方法

  • 创建合作视图-对话导航(CVDN),一个在Matterport室-对-室环境中包含2050段人机对话的数据集。
  • 定义NDH:输入为目标对象和对话历史;输出为朝向目标区域的导航动作。
  • 使用一个序列到序列模型,对话历史使用LSTM编码器,解码器为LSTM并以基于ResNet-152嵌入的视觉输入。
  • 尝试不同的对话历史长度和监督信号(仅导航员、仅Oracle、混合监督)。
  • 使用到目标的距离度量来评估朝向目标区域的进展,并与基线(包括最短路径和随机代理)进行比较。

实验结果

研究问题

  • RQ1较长的对话历史是否能在NDH任务中改善导航进展?
  • RQ2混合人类与规划者监督的训练对NDH性能有何影响?
  • RQ3序列到序列模型是否能在真实感环境中有效地把对话历史映射为导航动作?
  • RQ4在看得见和看不见的环境中,NDH性能与基线相比如何?

主要发现

  • 在看不见的环境中,较长的对话历史显著提升导航进展,相对于单模态或历史有限的输入。
  • 混合监督(结合人工示范与规划者引导)持续优于只使用Oracle或导航员监督。
  • 序列到序列基线为NDH确立了多模态能力,在人类性能方面仍有提升空间,尤其是在未见环境中。
  • 在未见测试环境中,使用完整对话历史优于仅使用目标对象或最后一次问答交换。
  • 对话历史使得学习从对话上下文到适当导航动作的映射成为可能,为未来基于强化学习的改进提供支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。