QUICK REVIEW

[論文レビュー] Autonomous Quadrotor Landing using Deep Reinforcement Learning

Riccardo Polvara, Massimiliano Patacchiola|arXiv (Cornell University)|Sep 11, 2017

Robotics and Sensor-Based Localization参考文献 21被引用数 40

ひとこと要約

本論文では、外部センサーや手作業で特徴を抽出しないで、低解像度の下向きカメラ画像のみを用いて自律的マルチローター機の着陸を実現する深層強化学習（DRL）ベースの手法を提案する。階層的DQNアーキテクチャを採用し、タスクをランドマーク検出と垂直降下に分割する。本手法は人間パイロットや最先端のARトラッキングシステムと同等の性能を達成し、ドメインランダマイゼーションとパーティショナライズド経験リプレイを用いることで、マーカーの損傷や実世界環境への一般化性が向上している。

ABSTRACT

Landing an unmanned aerial vehicle (UAV) on a ground marker is an open problem despite the effort of the research community. Previous attempts mostly focused on the analysis of hand-crafted geometric features and the use of external sensors in order to allow the vehicle to approach the land-pad. In this article, we propose a method based on deep reinforcement learning that only requires low-resolution images taken from a down-looking camera in order to identify the position of the marker and land the UAV on it. The proposed approach is based on a hierarchy of Deep Q-Networks (DQNs) used as high-level control policy for the navigation toward the marker. We implemented different technical solutions, such as the combination of vanilla and double DQNs, and a partitioned buffer replay. Using domain randomization we trained the vehicle on uniform textures and we tested it on a large variety of simulated and real-world environments. The overall performance is comparable with a state-of-the-art algorithm and human pilots.

研究の動機と目的

外部センサーや手作業で特徴を抽出しないで、地面のマーカーに自律的に着陸するUAVの挑戦に取り組む。
特定のマーカーに依存するか、複雑なセンサーセットアップを必要とする従来のビジョンベースやセンサーフュージョン手法の限界を克服する。
視覚入力のみを用いて、多様な実世界およびシミュレーテッド環境に一般化可能な学習ベースのシステムを構築する。
ドメインランダマイゼーションと新しいトレーニング技術を用いて、マーカーの損傷や環境の変動に対する耐性を向上させる。
エンドツーエンドのDRLが、人間パイロットやARトラッキングシステムと同等の高い着陸成功率を達成できることを実証する。

提案手法

ランドマーク検出用と垂直降下制御用の2つの専用DQNを備えた階層的ディープQネットワーク（DQN）フレームワークを採用する。
トレーニング中の価値関数近似における過剰推定バイアスを軽減するため、ダブルDQNを用いる。
レアでスパースな遷移に優先順位を付けることで、スパース報酬環境における学習効率を向上させる、パーティショナライズドバッファリプレイ機構を実装する。
ドメインランダマイゼーションをトレーニング段階で適用し、均一なテクスチャとランダム化された照明・遮蔽を用いることで、実世界環境への一般化性を向上させる。
2つのDQN間で内部トリガー機構を統合し、検出フェーズから降下フェーズへの遷移を調整する。
エージェントがピクセル観測から直接高レベルの制御ポリシーを学習できるように、スパースで密集した報酬を用いてDQNをエンドツーエンドでトレーニングする。

実験結果

リサーチクエスチョン

RQ1深層強化学習エージェントは、低解像度の下向きカメラ画像のみを用いて、地面のマーカーを自律的に検出し、制御された垂直降下を実行できるか？
RQ2提案された階層的DQNアーキテクチャは、エンドツーエンドまたは単一ポリシーのアプローチと比較して、サンプル効率および着陸成功率においてどのように差をつけるか？
RQ3ドメインランダマイゼーションは、トレーニング中に観測されていない実世界環境へのDRLポリシーの一般化をどの程度向上させるか？
RQ4パーティショナライズドバッファリプレイ機構は、スパース報酬の着陸タスクにおける学習の安定性とパフォーマンスをどのように向上させるか？
RQ5DRLベースのシステムは、マーカーの損傷や環境の変動に対する耐性において、従来のARタグトラッキングや人間パイロットを上回ることができるか？

主な発見

DQN-multiモデルは、均一なテクスチャ、混合テクスチャ、リアルなシミュレーテッド環境の全範囲で87%の成功率を達成し、DQN-single（41%）を上回り、人間パイロットの性能（91%）と同等となった。
マーカーの損傷が生じた状況でも、DQN-multiシステムは51%の成功率を維持したのに対し、ARトラッカーはテンプレートマッチングの失敗により0%まで低下した。
実世界の屋内環境（研究室、ホール、ミッドレイヤー）では、62%の着陸成功率を達成した。失敗の多くは極端な照明やフライトドリフトに起因しており、マーカーの誤識別とは無関係であった。
DQN-multiポリシーは、ドローンがマーカーの真上にいる場合にのみ降下を優先するよう学習しており、行動価値分布の分析から、ターゲット位置で降下の有用性が著しく上昇していることが示された。
システムは人間パイロットよりも速く、離散制御条件下で平均19ステップで着陸した。人間パイロットは平均23ステップを要した。
検出と降下を同時にトレーニングするベースラインDQNは、タスクを学習できなかった。これは、安定したトレーニングを可能にするために階層的分解が不可欠であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。