[论文解读] FollowNet: Robot Navigation by Following Natural Language Directions with Deep Reinforcement Learning
FollowNet 使用多模态输入和语言注意力机制在深度Q网络中对自然语言指令进行端到端导航,以执行未见指令。它在没有注意力的基线之上显示出更高的成功率,并能泛化到新的指令和起始位置。
Understanding and following directions provided by humans can enable robots to navigate effectively in unknown situations. We present FollowNet, an end-to-end differentiable neural architecture for learning multi-modal navigation policies. FollowNet maps natural language instructions as well as visual and depth inputs to locomotion primitives. FollowNet processes instructions using an attention mechanism conditioned on its visual and depth input to focus on the relevant parts of the command while performing the navigation task. Deep reinforcement learning (RL) a sparse reward learns simultaneously the state representation, the attention function, and control policies. We evaluate our agent on a dataset of complex natural language directions that guide the agent through a rich and realistic dataset of simulated homes. We show that the FollowNet agent learns to execute previously unseen instructions described with a similar vocabulary, and successfully navigates along paths not encountered during training. The agent shows 30% improvement over a baseline model without the attention mechanism, with 52% success rate at novel instructions.
研究动机与目标
- 通过遵循人类提供的自然语言指令,推动机器人在未知环境中的导航。
- 开发一个端到端可微分的架构,将语言和视觉输入映射到导航动作。
- 引入基于感知输入的注意力机制,以动态聚焦于指令中的相关部分。
- 在真实的类房屋环境中评估对未见指令和不同起始位置的泛化能力。
提出的方法
- 将导航表述为一个 POMDP,观测包含自然语言、视觉及深度输入。
- 使用 Deep Q-Network 从多模态嵌入学习动作价值函数。
- 通过语义分割和深度图处理视觉输入,输入卷积网络以产生 v_S 和 v_D 嵌入。
- 利用双向 GRU 编码指令,并在受视觉与语言上下文条件约束的前馈注意力层中得到 v_L。
- 将 [v_S, v_D, v_L] 结合,对 Q(o) 进行最终前馈网络估计,使用 epsilon-greedy 探索和 Bellman 误差最小化进行训练。
实验结果
研究问题
- RQ1FollowNet 能否在稀疏奖励下学习执行自然语言导航指令?
- RQ2在指令上应用注意力机制是否相比无注意力的基线能提升性能?
- RQ3模型在新颖的两步指令和不同起始位置上的泛化程度如何?
- RQ4在训练和评估使用共享词汇时,随着指令复杂度(步数)增加,模型的扩展能力如何?
- RQ5注意力对代理在导航时依赖的指令词有哪些洞察?
主要发现
- FollowNet 在新指令的 hold-out 集上实现 52% 的完全成功和 61% 的部分成功,较不带注意力的基线提升了 30% 。
- 在新的起始位置评估中,代理完成方向中的 70% 为部分完成,54% 为完全完成。
- 在评估数据集上的总体指令执行成功率为 52%,相比非注意力基线的 40%(提升 30% 的相对比例)。
- 注意力热力图显示模型在向前推进时将焦点转向相关的指令词(例如 left、hallway),表明对语言的上下文 grounding。
- 在更复杂的多步指令上训练的代理在两步评估任务上仍能取得相当的表现,在许多情况下部分进展,四步或五步指令的完全成功更少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。