QUICK REVIEW

[论文解读] Self-Monitoring Navigation Agent via Auxiliary Progress Estimation

Chih‐Yao Ma, Jiasen Lu|arXiv (Cornell University)|Jan 10, 2019

Robotic Path Planning Algorithms参考文献 51被引用 134

一句话总结

本文提出一种具备视觉-文本共对地的自我监控视觉-语言导航代理，以及一个进度监控器，在Room-to-Room任务上达到最先进的结果，尤其是在未见环境中，成功率实现8%的绝对提升。

ABSTRACT

The Vision-and-Language Navigation (VLN) task entails an agent following navigational instruction in photo-realistic unknown environments. This challenging task demands that the agent be aware of which instruction was completed, which instruction is needed next, which way to go, and its navigation progress towards the goal. In this paper, we introduce a self-monitoring agent with two complementary components: (1) visual-textual co-grounding module to locate the instruction completed in the past, the instruction required for the next action, and the next moving direction from surrounding images and (2) progress monitor to ensure the grounded instruction correctly reflects the navigation progress. We test our self-monitoring agent on a standard benchmark and analyze our proposed approach through a series of ablation studies that elucidate the contributions of the primary components. Using our proposed method, we set the new state of the art by a significant margin (8% absolute increase in success rate on the unseen test set). Code is available at https://github.com/chihyaoma/selfmonitoring-agent .

研究动机与目标

推动并解决VLN中需要代理在没有显式目标地图的情况下，知道哪些指令已完成、接下来需要执行什么的问题。
开发一个视觉-文本共对地模块，将过去/即将执行的指令以及来自周围图像的当前动作进行对地。
引入一个进度监控器，通过估计对指令的遵循完整度和朝向目标的进展来正则化对地。
将对地与进度信号整合到动作选择和束搜索推理中，以提升导航性能。

提出的方法

提出一个由视觉-文本共对地和进度监控两部分组成的代理，实现对视觉、指令的同时对地与进度估计。
采用基于注意力的序列到序列LSTM架构，在每一步计算对地的文本特征与视觉特征。
通过对指令词的软注意力（带位置编码）来计算文本对地；通过对全景视角特征的注意力来对地视觉信息。
将对地后的指令和视觉上下文结合，通过内积评分与对可导航方向的softmax来选择动作。
引入一个进度监控器，从历史、对地视觉与文本注意力中计算进度信号 p_t^{pm}，以正则化学习。
使用联合损失进行训练，结合动作选择的交叉熵与进度估计的回归项；推理阶段使用束搜索，将进度信号整合到束得分中。

实验结果

研究问题

RQ1如何在视觉和文本模态上联合进行对地，以确定已完成的指令和需要执行的下一条指令？
RQ2进度估计模块能否正则化对地并提升VLN任务中向目标的导航进展？
RQ3将进度信号整合到束搜索中是否能提升VLN在未见环境下的泛化？
RQ4共对地与进度监控对R2R达到最先进性能的贡献有哪些？
RQ5在有无数据增强的情况下，与现有方法相比数据效率如何？

主要发现

方法	NE (验证-Seen)	SR (验证-Seen)	OSR (验证-Seen)	SPL (验证-Seen)	NE (验证-Unseen)	SR (验证-Unseen)	OSR (验证-Unseen)	SPL (验证-Unseen)	NE (测试-Unseen)	SR (测试-Unseen)	OSR (测试-Unseen)	SPL (测试-Unseen)
Random	9.45	0.16	0.21	-	9.23	0.16	0.22	-	9.77	0.13	0.18	-
Student-forcing	6.01	0.39	0.53	-	7.81	0.22	0.28	-	7.85	0.20	0.27	-
RPA	5.56	0.43	0.53	-	7.65	0.25	0.32	-	7.53	0.25	0.33	-
Speaker-Follower	3.88	0.63	0.71	-	5.24	0.50	0.63	-	-	-	-	-
Speaker-Follower* (leaderboard)	3.08	0.70	0.78	-	4.83	0.55	0.65	-	4.87	0.53	0.64	-
Ours (beam search) (leaderboard)	3.23	0.70	0.78	0.66	5.04	0.57	0.70	0.51	4.99	0.57	0.68	0.51
-	-	-	-	-	-	-	-	4.99	0.57	0.95	0.02
Ours* (beam search) (leaderboard)	3.04	0.71	0.78	0.67	4.62	0.58	0.68	0.52	4.48	0.61	0.70	0.56

在 seen 与 unseen 的 R2R 数据集上达到最先进的结果，在 unseen 测试集实现8%的绝对成功率提升。
共对地框架（视觉与文本）通过利用两个模态共享的隐藏状态，显著优于基线。
进度监控正则化在 seen 和 unseen 环境中提升了 SR，对在不使用数据增强的情况下超越现有方法至关重要。
将束搜索与进度估计结合，相较于先前的束搜索基线带来额外增益，尤其在未见环境。
文本对地的注意力呈现出随时间呈对角状的指令聚焦推进，表明指令到动作的对地效果良好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。