QUICK REVIEW

[論文レビュー] Autonomous UAV Navigation Using Reinforcement Learning

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|Jan 16, 2018

Reinforcement Learning in Robotics参考文献 18被引用数 48

ひとこと要約

本論文は、離散化された状態空間上でポリシーを学習することにより、未知環境を航行できる UAV を実現する PID 支援の Q 学習フレームワークを提示する。シミュレーション（5×5 グリッド）と AR Drone 2.0 を用いた実世界の室内飛行の両方でデモンストレーションを行う。

ABSTRACT

Unmanned aerial vehicles (UAV) are commonly used for missions in unknown environments, where an exact mathematical model of the environment may not be available. This paper provides a framework for using reinforcement learning to allow the UAV to navigate successfully in such environments. We conducted our simulation and real implementation to show how the UAVs can successfully learn to navigate through an unknown environment. Technical aspects regarding to applying reinforcement learning algorithm to a UAV system and UAV flight control were also addressed. This will enable continuing research using a UAV with learning capabilities in more important applications, such as wildfire monitoring, or search and rescue missions.

研究の動機と目的

未知の環境で事前に地図やモデルを持たずにUAVの航行を促進する。
Q学習を用いた強化学習フレームワークを提案し、航行ポリシーを学習する。
アプローチのシミュレーションと実機での実装をいずれもクアドロターレで実証する。
学習したアクションを安定したUAVの運動へ翻訳するためのPIDコントローラの統合を示す。

提案手法

環境を高さ一定の状態を中心としたグリッド状の離散化された有限状態空間としてモデル化する。
離散的な状態-アクション値を学習するためにQ学習を適用し、探索/ exploitation のためにε-グリーディ方策を用いる。
4つの離散側方アクション（北・西・南・東）を定義し、ゴール到達を100、その他の状態を-1とする報酬スキームを設定する。
現在の状態から次の状態へ UAV を駆動し、距離 d（チューニング結果は0.3m）以内でホバーさせるPIDコントローラを組み込む。
学習ポリシーを低レベルの位置制御器と簡易に統合し、UAVの非線形ダイナミクスに対処する。

実験結果

リサーチクエスチョン

RQ1未知の環境で開始位置から事前定義されたゴールへ、UAV がQ学習を用いてナビゲーションを学習できるか。
RQ2PIDコントローラを統合することで、実機UAVで学習したアクションを実行する際の安定性と精度が向上するか。
RQ3シミュレーションと実機で、最適経路収束に必要なエピソード数はいくつか。
RQ4離散化された2D環境における学習ポリシーの性能（経路長、収束）は、理想的な最短経路と比べてどうか。

主な発見

シミュレーションでは、UAV が開始点からゴールへ至る最適経路を8ステップの最短経路で39エピソードで学習した。
実機ではAR Drone 2.0 がゴールへの最適な8ステップ経路を発見するのに38エピソードを要した。
PIDゲイン調整後、ターゲットから半径0.3m以内でホバリング精度を達成する。
学習設定は、ゴール到達時に+100、その他は-1の報酬を用い、効率的なナビゲーションを導く。
実機で使用したPIDゲインはKp=0.8、Kd=0.9、Ki=0（ホバリングの安定化とオーバーシュートの抑制のため）。
最後のエピソードの軌道は、最短経路を辿ってゴールへ到達する様子を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。