[论文解读] Reinforcement Learning for Active Perception in Autonomous Navigation
本文提出一个强化学习框架,联合优化安全、以目标为导向的空中导航与主动感知(使用有执行机构的相机和局部自我中心占用网格)。在仿真和实际测试中展示了更高的安全性和探索性。
This paper addresses the challenge of active perception within autonomous navigation in complex, unknown environments. Revisiting the foundational principles of active perception, we introduce an end-to-end reinforcement learning framework in which a robot must not only reach a goal while avoiding obstacles, but also actively control its onboard camera to enhance situational awareness. The policy receives observations comprising the robot state, the current depth frame, and a particularly local geometry representation built from a short history of depth readings. To couple collision-free motion planning with information-driven active camera control, we augment the navigation reward with a voxel-based information metric. This enables an aerial robot to learn a robust policy that balances goal-directed motion with exploratory sensing. Extensive evaluation demonstrates that our strategy achieves safer flight compared to using fixed, non-actuated camera baselines while also inducing intrinsic exploratory behaviors.
研究动机与目标
- 在固定传感器设置之外,激发自主导航中的主动感知。
- 开发一个端到端RL策略,联合优化运动规划与相机姿态。
- 利用局部自我中心占用网格实现鲁棒的局部感知,而不依赖全局定位。
- 通过大量仿真与实际试验,展示仿真到现实的迁移。
- 为研究社区提供可重复的代码和开源资源。
提出的方法
- 定义一个多目标RL框架,输出导航指令和有执行机构的相机姿态。
- 使用由深度数据构建的自我中心3D占用网格,提供局部场景上下文以实现碰撞避免。
- 加入深度碰撞编码器,将深度输入压缩为策略的潜在表示。
- 在3D扩展的2D导航模型上使用APPO训练策略,包含用于时序依赖的GRU。
- 用来自特权全局地图的内在信息增益项来丰富奖励,鼓励探索而在部署时不向策略暴露该信息。
- 用一阶伺服动力学建模有执行机构相机的动态,以反映真实硬件限制,使用有界、饱和更新。
- 通过ResNet为基础的3D网格编码器处理输入,与机器人和相机状态通过MLP与GRU结合,输出一个6D动作(导航:速度、偏航;相机:俯仰、偏航)。
- 在Aerial Gym中通过随机化环境和噪声训练,以提高鲁棒性和模拟到现实的迁移。
实验结果
研究问题
- RQ1主动感知(通过有执行机构的相机)如何在未知3D环境中改善碰撞避免与目标到达?
- RQ2将局部自我中心占用网格与信息增益奖励结合,是否比固定传感器基线带来更安全、更具探索性的导航?
- RQ3在仿真中训练的RL策略能否泛化到具有有执行机构感知与有限定位的真实世界飞行?
- RQ4内在探索奖励在提升环境理解方面的贡献如何,同时不损害导航性能?
- RQ5提出的方法在障碍密度和环境复杂度增加时的扩展性如何?
主要发现
- 主动感知策略在障碍密度增加时,与静态相机基线相比实现了更高的成功率和更低的坠毁率。
- 局部自我中心占用网格显著降低碰撞并提高导航可靠性,安全增益超过视场约束的影响。
- 将有执行机构的相机控制与基于网格的感知以及内在探索奖励(n_t)结合,可以在消融测试中实现对环境体积最高的探索(多达63.4%)并在密集场景中实现鲁棒导航。
- Active+Grid+n_t 配置在仿真到现实的迁移中表现出色,Gazebo与实际试验中保持高成功率的同时显著提升环境探索。
- 消融研究表明,主动感知结合局部空间表示优于静态相机变体,尤其在障碍密度增加时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。