QUICK REVIEW

[论文解读] Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Xin Wang, Qiuyuan Huang|arXiv (Cornell University)|Nov 25, 2018

Multimodal Machine Learning Applications参考文献 57被引用 37

一句话总结

本文提出了一种强化交叉模态匹配（RCM）框架，通过结合强化学习与循环重建内在奖励，提升视觉语言导航中局部和全局的交叉模态对齐。此外，引入自监督模仿学习（SIL）以增强在未见环境中的泛化能力，在R2R基准上实现最先进性能，SPL提升10%，并将已见与未见环境间的性能差距从30.7%降低至11.7%。

ABSTRACT

Vision-language navigation (VLN) is the task of navigating an embodied agent to carry out natural language instructions inside real 3D environments. In this paper, we study how to address three critical challenges for this task: the cross-modal grounding, the ill-posed feedback, and the generalization problems. First, we propose a novel Reinforced Cross-Modal Matching (RCM) approach that enforces cross-modal grounding both locally and globally via reinforcement learning (RL). Particularly, a matching critic is used to provide an intrinsic reward to encourage global matching between instructions and trajectories, and a reasoning navigator is employed to perform cross-modal grounding in the local visual scene. Evaluation on a VLN benchmark dataset shows that our RCM model significantly outperforms previous methods by 10% on SPL and achieves the new state-of-the-art performance. To improve the generalizability of the learned policy, we further introduce a Self-Supervised Imitation Learning (SIL) method to explore unseen environments by imitating its own past, good decisions. We demonstrate that SIL can approximate a better and more efficient policy, which tremendously minimizes the success rate performance gap between seen and unseen environments (from 30.7% to 11.7%).

研究动机与目标

为解决视觉语言导航（VLN）中的交叉模态对齐挑战，即智能体必须将语言指令与视觉场景及轨迹对齐。
缓解VLN中反馈不充分的问题，即仅在抵达目标时才给出成功信号，忽略了导航过程中语言指令的保真度。
缩小已见与未见环境之间的性能差距，这是具身智能体泛化能力中的主要问题。
开发一种模块化、与模型无关的框架，结合强化学习与自监督模仿学习，实现在新环境中的终身学习。

提出的方法

RCM引入循环重建奖励作为内在信号，评估轨迹在多大程度上能重建原始语言指令，从而强制实现全局交叉模态对齐。
推理导航器通过关注视觉特征与文本上下文，利用历史感知注意力机制，将子指令与视觉场景对齐，实现局部交叉模态对齐。
智能体通过强化学习进行训练，结合环境的外在成功奖励与内在的循环重建奖励，以改善策略学习。
SIL通过在回放缓冲区中存储通过匹配判别器筛选出的高质量轨迹，使智能体能够模仿自身过往的成功决策，从而实现在未见环境中的探索。
该框架使用来自自生成轨迹的专家式轨迹回放缓冲区，实现无需外部监督的模仿学习。
该方法具有模块化与模型无关性，支持对导航器或判别器等组件的独立优化。

实验结果

研究问题

RQ1循环重建内在奖励是否能通过将语言指令与智能体轨迹对齐，改善视觉语言导航中的交叉模态对齐？
RQ2通过强化学习结合内在与外在奖励，对策略性能与泛化能力有何影响？
RQ3基于智能体自身过往成功轨迹的自监督模仿学习，是否能提升其在未见环境中的导航能力？
RQ4所提方法在多大程度上缩小了视觉语言导航中已见与未见环境间的性能差距？

主要发现

RCM在R2R基准上达到新的最先进性能，相比先前方法SPL提升10%。
在结合SIL时，引入内在循环重建奖励可将已见与未见环境间的成功率差距从30.7%降低至11.7%。
消融实验表明，若移除内在奖励，未见环境中的成功率下降1.9个百分点，凸显其在泛化中的关键作用。
采用历史感知交叉模态注意力的推理导航器优于仅使用隐藏状态注意力的标准序列到序列模型，证明了上下文建模的优势。
SIL通过使智能体能够从自身高质量轨迹中学习，显著提升已见与未见环境中的性能，优于贪婪束搜索策略。
该方法展现出强大的泛化能力，当使用RCM + SIL时，未见环境中的成功率相比基线模型提升7.1个百分点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。