QUICK REVIEW

[论文解读] Reinforcement Learning for Active Perception in Autonomous Navigation

Grzegorz Malczyk, Mihir Kulkarni|arXiv (Cornell University)|Feb 1, 2026

Robotics and Sensor-Based Localization被引用 0

一句话总结

本文提出一个强化学习框架，联合优化安全、以目标为导向的空中导航与主动感知（使用有执行机构的相机和局部自我中心占用网格）。在仿真和实际测试中展示了更高的安全性和探索性。

ABSTRACT

This paper addresses the challenge of active perception within autonomous navigation in complex, unknown environments. Revisiting the foundational principles of active perception, we introduce an end-to-end reinforcement learning framework in which a robot must not only reach a goal while avoiding obstacles, but also actively control its onboard camera to enhance situational awareness. The policy receives observations comprising the robot state, the current depth frame, and a particularly local geometry representation built from a short history of depth readings. To couple collision-free motion planning with information-driven active camera control, we augment the navigation reward with a voxel-based information metric. This enables an aerial robot to learn a robust policy that balances goal-directed motion with exploratory sensing. Extensive evaluation demonstrates that our strategy achieves safer flight compared to using fixed, non-actuated camera baselines while also inducing intrinsic exploratory behaviors.

研究动机与目标

在固定传感器设置之外，激发自主导航中的主动感知。
开发一个端到端RL策略，联合优化运动规划与相机姿态。
利用局部自我中心占用网格实现鲁棒的局部感知，而不依赖全局定位。
通过大量仿真与实际试验，展示仿真到现实的迁移。
为研究社区提供可重复的代码和开源资源。

提出的方法

定义一个多目标RL框架，输出导航指令和有执行机构的相机姿态。
使用由深度数据构建的自我中心3D占用网格，提供局部场景上下文以实现碰撞避免。
加入深度碰撞编码器，将深度输入压缩为策略的潜在表示。
在3D扩展的2D导航模型上使用APPO训练策略，包含用于时序依赖的GRU。
用来自特权全局地图的内在信息增益项来丰富奖励，鼓励探索而在部署时不向策略暴露该信息。
用一阶伺服动力学建模有执行机构相机的动态，以反映真实硬件限制，使用有界、饱和更新。
通过ResNet为基础的3D网格编码器处理输入，与机器人和相机状态通过MLP与GRU结合，输出一个6D动作（导航：速度、偏航；相机：俯仰、偏航）。
在Aerial Gym中通过随机化环境和噪声训练，以提高鲁棒性和模拟到现实的迁移。

实验结果

研究问题

RQ1主动感知（通过有执行机构的相机）如何在未知3D环境中改善碰撞避免与目标到达？
RQ2将局部自我中心占用网格与信息增益奖励结合，是否比固定传感器基线带来更安全、更具探索性的导航？
RQ3在仿真中训练的RL策略能否泛化到具有有执行机构感知与有限定位的真实世界飞行？
RQ4内在探索奖励在提升环境理解方面的贡献如何，同时不损害导航性能？
RQ5提出的方法在障碍密度和环境复杂度增加时的扩展性如何？

主要发现

主动感知策略在障碍密度增加时，与静态相机基线相比实现了更高的成功率和更低的坠毁率。
局部自我中心占用网格显著降低碰撞并提高导航可靠性，安全增益超过视场约束的影响。
将有执行机构的相机控制与基于网格的感知以及内在探索奖励（n_t）结合，可以在消融测试中实现对环境体积最高的探索（多达63.4%）并在密集场景中实现鲁棒导航。
Active+Grid+n_t 配置在仿真到现实的迁移中表现出色，Gazebo与实际试验中保持高成功率的同时显著提升环境探索。
消融研究表明，主动感知结合局部空间表示优于静态相机变体，尤其在障碍密度增加时。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。