Skip to main content
QUICK REVIEW

[论文解读] Reinforcement Learning for Active Perception in Autonomous Navigation

Grzegorz Malczyk, Mihir Kulkarni|arXiv (Cornell University)|Feb 1, 2026
Robotics and Sensor-Based Localization被引用 0
一句话总结

本文提出一个强化学习框架,联合优化安全、以目标为导向的空中导航与主动感知(使用有执行机构的相机和局部自我中心占用网格)。在仿真和实际测试中展示了更高的安全性和探索性。

ABSTRACT

This paper addresses the challenge of active perception within autonomous navigation in complex, unknown environments. Revisiting the foundational principles of active perception, we introduce an end-to-end reinforcement learning framework in which a robot must not only reach a goal while avoiding obstacles, but also actively control its onboard camera to enhance situational awareness. The policy receives observations comprising the robot state, the current depth frame, and a particularly local geometry representation built from a short history of depth readings. To couple collision-free motion planning with information-driven active camera control, we augment the navigation reward with a voxel-based information metric. This enables an aerial robot to learn a robust policy that balances goal-directed motion with exploratory sensing. Extensive evaluation demonstrates that our strategy achieves safer flight compared to using fixed, non-actuated camera baselines while also inducing intrinsic exploratory behaviors.

研究动机与目标

  • 在固定传感器设置之外,激发自主导航中的主动感知。
  • 开发一个端到端RL策略,联合优化运动规划与相机姿态。
  • 利用局部自我中心占用网格实现鲁棒的局部感知,而不依赖全局定位。
  • 通过大量仿真与实际试验,展示仿真到现实的迁移。
  • 为研究社区提供可重复的代码和开源资源。

提出的方法

  • 定义一个多目标RL框架,输出导航指令和有执行机构的相机姿态。
  • 使用由深度数据构建的自我中心3D占用网格,提供局部场景上下文以实现碰撞避免。
  • 加入深度碰撞编码器,将深度输入压缩为策略的潜在表示。
  • 在3D扩展的2D导航模型上使用APPO训练策略,包含用于时序依赖的GRU。
  • 用来自特权全局地图的内在信息增益项来丰富奖励,鼓励探索而在部署时不向策略暴露该信息。
  • 用一阶伺服动力学建模有执行机构相机的动态,以反映真实硬件限制,使用有界、饱和更新。
  • 通过ResNet为基础的3D网格编码器处理输入,与机器人和相机状态通过MLP与GRU结合,输出一个6D动作(导航:速度、偏航;相机:俯仰、偏航)。
  • 在Aerial Gym中通过随机化环境和噪声训练,以提高鲁棒性和模拟到现实的迁移。

实验结果

研究问题

  • RQ1主动感知(通过有执行机构的相机)如何在未知3D环境中改善碰撞避免与目标到达?
  • RQ2将局部自我中心占用网格与信息增益奖励结合,是否比固定传感器基线带来更安全、更具探索性的导航?
  • RQ3在仿真中训练的RL策略能否泛化到具有有执行机构感知与有限定位的真实世界飞行?
  • RQ4内在探索奖励在提升环境理解方面的贡献如何,同时不损害导航性能?
  • RQ5提出的方法在障碍密度和环境复杂度增加时的扩展性如何?

主要发现

  • 主动感知策略在障碍密度增加时,与静态相机基线相比实现了更高的成功率和更低的坠毁率。
  • 局部自我中心占用网格显著降低碰撞并提高导航可靠性,安全增益超过视场约束的影响。
  • 将有执行机构的相机控制与基于网格的感知以及内在探索奖励(n_t)结合,可以在消融测试中实现对环境体积最高的探索(多达63.4%)并在密集场景中实现鲁棒导航。
  • Active+Grid+n_t 配置在仿真到现实的迁移中表现出色,Gazebo与实际试验中保持高成功率的同时显著提升环境探索。
  • 消融研究表明,主动感知结合局部空间表示优于静态相机变体,尤其在障碍密度增加时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。