QUICK REVIEW

[論文レビュー] Reinforcement Learning for Active Perception in Autonomous Navigation

Grzegorz Malczyk, Mihir Kulkarni|arXiv (Cornell University)|Feb 1, 2026

Robotics and Sensor-Based Localization被引用数 0

ひとこと要約

本論文は、 actuated camera を用いた能動 perception と局所的 ego-centric occupancy grid を組み合わせて、安全で目標指向の空中ナビゲーションを同時に最適化する強化学習フレームワークを提示する。シミュレーションと実世界のテストで、安全性と探索性の向上を実証する。

ABSTRACT

This paper addresses the challenge of active perception within autonomous navigation in complex, unknown environments. Revisiting the foundational principles of active perception, we introduce an end-to-end reinforcement learning framework in which a robot must not only reach a goal while avoiding obstacles, but also actively control its onboard camera to enhance situational awareness. The policy receives observations comprising the robot state, the current depth frame, and a particularly local geometry representation built from a short history of depth readings. To couple collision-free motion planning with information-driven active camera control, we augment the navigation reward with a voxel-based information metric. This enables an aerial robot to learn a robust policy that balances goal-directed motion with exploratory sensing. Extensive evaluation demonstrates that our strategy achieves safer flight compared to using fixed, non-actuated camera baselines while also inducing intrinsic exploratory behaviors.

研究の動機と目的

固定センサー設定を超えた自律ナビゲーションにおける能動的知覚の動機付け。
モーションプランニングとカメラ姿勢を共同最適化するエンドツーエンドRLポリシーの開発。
グローバルなローカライズに依存せず、堅牢で局所的な知覚を提供する局所的な ego-centric occupancy grid の活用。
シミュレータと実機実験を通じた sim-to-real 移行の実証。
研究コミュニティ向けの再現可能なコードとオープンソースリソースの提供。

提案手法

エージェ to多目的RLフレームワークを定義し、 navigation コマンドと actuated-camera の姿勢を出力。
深度データから構築されたego-centric 3D occupancy gridを用いて局所シーンコンテキストを提供し、衝突回避を支援。
深さ入力を潜在表現へ圧縮する深層衝突エンコーダをポリシーに組み込む。
GRU を用いた時系列依存性を含む2Dナビゲーションモデルの3D拡張でAPPOを使用してポリシーを訓練。
内部情報利得項を報酬に組み込み、デプロイ時にポリシーへ露出させずに探索を促進。
実ハードウェアの制限を反映する1次サーボダイナミクスによる駆動カメラの動作モデル化と、上限付き・飽和更新による更新。
ResNetベースの3Dグリッドエンコーダで入力を処理し、ロボット状態とカメラ状態をMLPとGRUで結合、6Dアクション（nav: v, yaw; cam: pitch, yaw）を出力。
ランダム化環境とノイズを備えたAerial Gymで訓練し、頑健性とsim2real移行を促進。

実験結果

リサーチクエスチョン

RQ1未知の3D環境で actuated camera を介した能動的知覚は衝突回避とゴール到達にどのように寄与するか。
RQ2局所的 ego-centric occupancy grid と情報利得報酬の組み合わせは、固定センサーのベースラインよりも安全で探索的なナビゲーションを生むか。
RQ3シミュレーションで訓練した RL ポリシーは actuated perception と限られたローカリゼーションで実世界飛行に一般化できるか。
RQ4本質的探索報酬が環境理解を高める一方でナビゲーション性能を損なわないか。
RQ5障害物密度と環境の複雑さが提案手法のスケーリングにどのように影響するか。

主な発見

能動的知覚ポリシーは、障害物密度が増加するにつれて、静的カメラベースラインより高い成功率と低いクラッシュ率を達成。
局所 ego-centric occupancy grid は衝突を実質的に減少させ、視野の制約の影響を越える安全性向上をもたらす。
actuated camera 制御とグリッドベース知覚、および intrinsic 探索報酬（n_t）を組み合わせると、環境体積の最大63.4%まで探索が高まり、密集シーンでの堅牢なナビゲーションを実現。
Active+Grid+ n_t 設定は sim-to-real の性能を強く発揮し、Gazeboと実世界の試験で高い成功率を維持しつつ環境探索を大幅に向上。
アブレーション研究は、能動知覚と局所的空間表現の組み合わせが、障害物密度が高まるほど静的カメラ版を上回ることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。