[论文解读] Combining Optimal Control and Learning for Visual Navigation in Novel Environments
LB-WayPtNav 将基于学习的感知模块、基于模型的规划器和 LQR 跟踪结合起来,仅使用 RGB 输入导航到目标,在新颖的室内环境中优于端对端和纯几何方法。它能够从仿真直接转移到真实机器人,无需微调。
Model-based control is a popular paradigm for robot navigation because it can leverage a known dynamics model to efficiently plan robust robot trajectories. However, it is challenging to use model-based methods in settings where the environment is a priori unknown and can only be observed partially through on-board sensors on the robot. In this work, we address this short-coming by coupling model-based control with learning-based perception. The learning-based perception module produces a series of waypoints that guide the robot to the goal via a collision-free path. These waypoints are used by a model-based planner to generate a smooth and dynamically feasible trajectory that is executed on the physical system using feedback control. Our experiments in simulated real-world cluttered environments and on an actual ground vehicle demonstrate that the proposed approach can reach goal locations more reliably and efficiently in novel environments as compared to purely geometric mapping-based or end-to-end learning-based alternatives. Our approach does not rely on detailed explicit 3D maps of the environment, works well with low frame rates, and generalizes well from simulation to the real world. Videos describing our approach and experiments are available on the project website.
研究动机与目标
- 在未知、杂乱的室内环境中进行导航,且不使用完整的 3D 地图。
- 利用学习从第一视角 RGB 图像预测高层次的航点。
- 使用带平滑样条轨迹和 LQR 跟踪的基于模型的规划器,实现鲁棒控制。
- 实现从仿真到真实环境的转移,无需现实世界微调。
- 提供数据高效的训练信号,用于无需人工标注的最优航点生成。
提出的方法
- 感知模块:CNN 从当前 RGB 图像预测下一个航点,目标在机器人坐标系中,以及当前速度。
- 规划模块:在系统动力学下,当前状态与预测航点之间的三阶样条轨迹。
- 控制:基于 LQR 的反馈控制器用于跟踪样条轨迹并执行控制。
- 训练:在已知地图中通过 MPC 计算的最优航点提供监督,在训练期间无需真实世界标记。
- 评估:在仿真中以及对 TurtleBot 2 进行比较,LB-WayPtNav 与端到端学习以及基于深度的几何映射/规划基线。
实验结果
研究问题
- RQ1学习型感知模块是否能够预测避免碰撞的航点,从而在未见环境中实现高效、平滑的基于模型的导航?
- RQ2将学习与最优控制结合,是否相较于纯学习或纯几何方法提高成功率、速度和轨迹平滑性?
- RQ3该方法在无需微调的情况下从仿真向真实机器人转移的效果如何?
- RQ4在新环境中,纯反应、无地标导航策略的局限性和失效模式是什么?
主要发现
| Agent | Input | Success (%) | Time taken (s) | Acceleration (m/s^2) | Jerk (m/s^3) |
|---|---|---|---|---|---|
| 专家 | 完整地图 | 100 | 10.78 ±2.64 | 0.11 ±0.03 | 0.36 ±0.14 |
| LB-WayPtNav (our) | RGB | 80.65 | 11.52 ±3.00 | 0.10 ±0.04 | 0.39 ±0.16 |
| 端到端 | RGB | 58.06 | 19.16 ±10.45 | 0.23 ±0.02 | 8.07 ±0.94 |
| 映射(无记忆) | Depth | 86.56 | 10.96 ±2.74 | 0.11 ±0.03 | 0.36 ±0.14 |
| 映射 | Depth + Spatial Memory | 97.85 | 10.95 ±2.75 | 0.11 ±0.03 | 0.36 ±0.14 |
- 在仿真中,LB-WayPtNav 的成功率更高、到达目标更快、轨迹更平滑,优于端到端学习。
- 在使用 RGB 输入的仿真中,LB-WayPtNav 达成目标的成功率为 80.65%,端到端为 58.06%,成功 episode 的平均时间分别为 11.52s 与 19.16s。
- 与基于深度的几何映射基线相比,使用 RGB 输入的 LB-WayPtNav 在深度方法理想时接近或达到其性能,但在深度传感器有噪声时性能下降,突显了基于 RGB 的鲁棒性。
- 在 TurtleBot 2 的硬件实验中,LB-WayPtNav 的成功率为 95%,对比 End-to-End 的 50%,加速度更平滑,冲击度更低(LB-WayPtNav 分别为 0.09 m/s^2 和 3.01 m/s^3)。
- 该方法能够从仿真泛化到真实机器人,无需现实世界微调,尽管外观上的较大域差异可能需要微调。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。