QUICK REVIEW

[논문 리뷰] Reinforcement Learning for Active Perception in Autonomous Navigation

Grzegorz Malczyk, Mihir Kulkarni|arXiv (Cornell University)|2026. 02. 01.

Robotics and Sensor-Based Localization인용 수 0

한 줄 요약

본 논문은 작동 가능한 카메라와 로컬 자아 중심 점유 격자를 이용한 능동 인식을 통해 안전하고 목표 지향적인 항공 내비게이션을 공동으로 최적화하는 강화 학습 프레임워크를 제시한다. 시뮬레이션 및 실제 테스트에서 안전성과 탐색 능력의 향상을 입증한다.

ABSTRACT

This paper addresses the challenge of active perception within autonomous navigation in complex, unknown environments. Revisiting the foundational principles of active perception, we introduce an end-to-end reinforcement learning framework in which a robot must not only reach a goal while avoiding obstacles, but also actively control its onboard camera to enhance situational awareness. The policy receives observations comprising the robot state, the current depth frame, and a particularly local geometry representation built from a short history of depth readings. To couple collision-free motion planning with information-driven active camera control, we augment the navigation reward with a voxel-based information metric. This enables an aerial robot to learn a robust policy that balances goal-directed motion with exploratory sensing. Extensive evaluation demonstrates that our strategy achieves safer flight compared to using fixed, non-actuated camera baselines while also inducing intrinsic exploratory behaviors.

연구 동기 및 목표

고정 센서 구성 범위를 넘어 자율 내비게이션에서 능동 인식을 촉진한다.
이동 계획과 카메라 방향을 함께 최적화하는 엔드-투-엔드 RL 정책을 개발한다.
글로벌 로컬라이제이션에 의존하지 않고도 강건하고 국소적인 인식을 위한 로컬 자아 중심 점유 격자를 활용한다.
광범위한 시뮬레이션과 실제 실험을 통해 시뮬레이션에서 실제로의 전이를 보여준다.
연구 커뮤니티를 위한 재현 가능한 코드와 오픈 소스 리소스를 제공한다.

제안 방법

네비게이션 명령과 작동 카메라 방향을 함께 출력하는 다목적 RL 프레임워크를 정의한다.
깊이 데이터로 구성된 자아 중심의 3D 점유 격자를 사용하여 충돌 회피를 위한 로컬 장면 맥락을 제공한다.
깊은 충돌 인코더를 도입하여 깊이 입력을 정책용 잠재 표현으로 압축한다.
APPO로 2D 내비게이션 모델의 3D 확장에 대해 정책을 학습하고, 시간 의존성을 위한 GRU를 포함한다.
배포 시 정책에 노출하지 않고 탐색을 촉진하기 위해 특권적 글로벌 맵에서 계산된 고유 정보 이득 항으로 보상을 보강한다.
실제 하드웨어 한계를 반영하도록 1차 서보 다이나믹으로 작동 카메라 동역학을 모델링하고, 제한되고 포화 상태의 업데이트를 사용한다.
ResNet 기반 3D 격자 인코더를 통해 입력을 처리하고, 로봇 및 카메라 상태를 MLP와 GRU로 결합한 뒤 6D 동작을 출력한다 (nav: v, yaw; cam: pitch, yaw).
강건성 및 sim2real 전이를 촉진하기 위해 무작위 환경과 노이즈를 포함한 Aerial Gym에서 학습한다.

실험 결과

연구 질문

RQ1작동 카메라를 통한 능동 인식이 미지의 3D 환경에서 충돌 회피와 목표 도달을 어떻게 개선할 수 있는가?
RQ2로컬 자아 중심 점유 격자와 정보 이득 보상을 결합하는 것이 고정 센서 기반의 기준선보다 더 안전하고 탐색적 인 내비게이션을 산출하는가?
RQ3시뮬레이션에서 학습된 RL 정책이 작동 인식이 가능한 실세계 비행과 제한된 로컬라이제이션에 일반화될 수 있는가?
RQ4탐색 내재 보상이 내비게이션 성능을 해치지 않으면서 환경 이해를 향상시키는 데 어떤 기여가 있는가?
RQ5제안된 접근법이 장애물 밀도와 환경 복잡성에 따라 어떻게 확장되는가?

주요 결과

능동 인식 정책은 증가하는 장애물 밀도에서도 고정 카메라 기준선보다 더 높은 성공률과 낮은 충돌률을 달성한다.
로컬 자아 중심 점유 격자는 충돌을 크게 줄이고 내비게이션 신뢰성을 향상시키며, 시야 제약의 영향보다 안전 이점이 큼.
작동 카메라 제어를 격자 기반 인식과 고유 탐색 보상(n_t)과 결합하면 환경 부피의 탐색이 가장 크게 증가하고(변요절 최대 63.4%까지) 밀집한 장면에서 견고한 내비게이션을 보인다.
Active+Grid+ n_t 구성은 시뮬레이터-실제 전이에서 강력한 성능을 달성하고 Gazebo 및 실제 실험에서 환경 탐색을 크게 증가시키면서도 높은 성공률을 유지한다.
절편 연구는 능동 인식이 로컬 공간 표현과 결합될 때 고정 카메라 변형보다 성능이 좋으며, 장애물 밀도가 증가할수록 그 차이가 커진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.