[论文解读] Mapping Navigation Instructions to Continuous Control Actions with Position-Visitation Prediction
该论文提出一个两阶段神经模型,通过预测位置访问分布,然后通过模仿学习执行计划,将自然语言指令和观测映射到连续的四旋翼控制。
We propose an approach for mapping natural language instructions and raw observations to continuous control of a quadcopter drone. Our model predicts interpretable position-visitation distributions indicating where the agent should go during execution and where it should stop, and uses the predicted distributions to select the actions to execute. This two-step model decomposition allows for simple and efficient training using a combination of supervised learning and imitation learning. We evaluate our approach with a realistic drone simulator, and demonstrate absolute task-completion accuracy improvements of 16.85% over two state-of-the-art instruction-following methods.
研究动机与目标
- 解决在连续环境中遵循自然语言导航指令的挑战。
- 开发一个能够给出对环境位置可解释的访问分布的模型。
- 通过将规划和执行分解为两阶段来实现样本高效训练。
- 在现实感知的四旋翼仿真器中展示相较于先进指令跟随方法的改进。
提出的方法
- 两阶段模型:访问分布预测与计划执行。
- 阶段1在从语言和观测得到的学习语义地图上预测轨迹访问分布和目标访问分布。
- 基于 LingUNet 的图像到图像生成将语义地图和着陆线索转换为访问分布。
- 阶段2通过将分布转换为自我坐标并使用带 STOP 头的小型神经控制器来进行动作选择。
- 训练:阶段1 使用带专家演示的监督学习以最小化预测分布与专家分布之间的 KL 散度;阶段2 使用模仿学习(DAggerFM)将分布映射到动作。
- 辅助损失(感知、地面、语言)用于偏置组件,以专门化感知和语言对齐。
实验结果
研究问题
- RQ1一个模型是否能够在逼真的无人机模拟器中将自然语言导航指令和原始观测映射为连续的控制动作?
- RQ2预测的位置访问分布是否提供可解释且有效的执行规划?
- RQ3通过监督学习与模仿学习将规划与执行分解是否能提高样本效率和任务成功率?
- RQ4与先前的连续动作方法相比,该方法在逼真的语言与环境下的扩展性如何?
主要发现
| 方法 | SR (%) | AD | MD |
|---|---|---|---|
| Stop | 0 5.72 | 15.8 0 | 14.8 0 |
| Average | 0 16.43 | 12.5 0 | 10.1 0 |
| Chaplot | 0 21.34 | 11.2 0 | 0 9.35 |
| GSMN | 0 24.36 | 0 9.94 | 0 8.28 |
| PVN | 0 41.21 | 0 8.68 | 0 6.26 |
| Oracle | 100.0 0 | 0 1.38 | 0 1.29 |
- PVN 相比第二名系统(GSMN)在任务完成率上提升了 16.85% 的绝对值。
- PVN 相比 GSMN 在中位停止距离提高 32.3%,平均停止距离提高 12.7%。
- 消融实验表明辅助损失和目标访问分量对性能重要;移除它们会降低结果。
- 模仿学习对性能贡献显著,在某些设置下不使用 DAgger 时退化较小。
- 模型对中等程度的测试时视觉和动力学变化仍然具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。