[论文解读] Speaker-Follower Models for Vision-and-Language Navigation
本文提出一个说话人-跟随者框架,具有全景式高层次行动空间,并通过说话人驱动的数据增强和务实推理,在按照自然语言指令进行导航方面实现显著提升,在 Room-to-Room (R2R) 上达到最先进的结果。
Navigation guided by natural language instructions presents a challenging reasoning problem for instruction followers. Natural language instructions typically identify only a few high-level decisions and landmarks rather than complete low-level motor behaviors; much of the missing information must be inferred based on perceptual context. In machine learning settings, this is doubly challenging: it is difficult to collect enough annotated data to enable learning of this reasoning process from scratch, and also difficult to implement the reasoning process using generic sequence models. Here we describe an approach to vision-and-language navigation that addresses both these issues with an embedded speaker model. We use this speaker model to (1) synthesize new instructions for data augmentation and to (2) implement pragmatic reasoning, which evaluates how well candidate action sequences explain an instruction. Both steps are supported by a panoramic action space that reflects the granularity of human-generated instructions. Experiments show that all three components of this approach---speaker-driven data augmentation, pragmatic reasoning and panoramic action space---dramatically improve the performance of a baseline instruction follower, more than doubling the success rate over the best existing approach on a standard benchmark.
研究动机与目标
- 解决视觉与语言导航中的数据稀缺与推理挑战。
- 利用外部说话人模型通过合成指令来增强训练数据。
- 在推理阶段融入务实推理,以选择能最好解释指令的路径。
- 使用全景高层次行动空间以简化规划并提升泛化。
提出的方法
- 构建一个跟随者模型,将指令映射到以注意力为基础的序列到序列(seq2seq)架构的动作序列。
- 构建一个对称的说话人模型,将路线映射到指令,从而通过合成的路线-指令对进行数据增强。
- 在说话人生成的增强数据上训练跟随者,并在真实数据上进行微调。
- 在测试时,使用跟随者生成 K 个候选路线,并使用说话人对它们重新评分,通过类似 RSA 的机制实现务实推理:argmax P_S(d|r)^λ P_F(r|d)^(1−λ)。
- 采用一个全景行动空间,编码高层次的可导航方向和停止动作,结合 360 度视觉输入和单跳注意力来指导决策。
实验结果
研究问题
- RQ1说话人模型是否能通过合成指令数据提高视觉-语言导航的数据效率和泛化能力?
- RQ2使用外部说话人进行务实推理是否比单纯的跟随者评分在路径选择上有改进?
- RQ3与低级视觉-运动控制相比,全景高层行动空间是否提升导航性能?
- RQ4数据增强、务实推理和全景行动空间的综合效应对未见环境泛化有何影响?
主要发现
- 说话人驱动的数据增强将验证集 seen 的 SR 从 40.3% 提升到 46.8%,未见的 SR 从 19.9% 提升到 24.6%。
- 通过说话人重新评分进行的务实推理将 SR 提升到 57.2%(val-seen)和 39.3%(val-unseen),相比仅使用增强后的跟随者的 52.1% 和 31.2%。
- 全景行动空间将 SR 显著提升至 70.1%(val-seen)和 54.6%(val-unseen),比基线的未见 SR 增幅超过一倍。
- 最终模型在测试未见环境上达到 53.5% 的 SR,显著优于此前的最先进方法。
- 总的来说,三个组件(数据增强、务实推理、全景空间)都对性能提升和泛化有显著贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。