QUICK REVIEW

[論文レビュー] Air Learning: An AI Research Platform for Algorithm-Hardware Benchmarking of Autonomous Aerial Robots

Srivatsan Krishnan, Behzad Boroujerdian|arXiv (Cornell University)|Jun 2, 2019

Reinforcement Learning in Robotics参考文献 51被引用数 31

ひとこと要約

Air Learning は、リソース制限のあるUAV向けに、深層強化学習（DRL）アルゴリズムのベンチマークを測定するためのオープンソースのシミュレータおよび強化学習プラットフォームである。トレーニング中にハードウェアインザループの遅延モデルを統合することで、ハイエンドシステムと組み込みシステム間の飛行時間の乖離を 37.73% から 0.5% にまで低減し、低消費電力プラットフォーム（例：Raspberry Pi）への正確なポリシー展開を可能にした。

ABSTRACT

We introduce Air Learning, an open-source simulator, and a gym environment for deep reinforcement learning research on resource-constrained aerial robots. Equipped with domain randomization, Air Learning exposes a UAV agent to a diverse set of challenging scenarios. We seed the toolset with point-to-point obstacle avoidance tasks in three different environments and Deep Q Networks (DQN) and Proximal Policy Optimization (PPO) trainers. Air Learning assesses the policies' performance under various quality-of-flight (QoF) metrics, such as the energy consumed, endurance, and the average trajectory length, on resource-constrained embedded platforms like a Raspberry Pi. We find that the trajectories on an embedded Ras-Pi are vastly different from those predicted on a high-end desktop system, resulting in up to 40% longer trajectories in one of the environments. To understand the source of such discrepancies, we use Air Learning to artificially degrade high-end desktop performance to mimic what happens on a low-end embedded system. We then propose a mitigation technique that uses the hardware-in-the-loop to determine the latency distribution of running the policy on the target platform (onboard compute on the aerial robot). A randomly sampled latency from the latency distribution is then added as an artificial delay within the training loop. Training the policy with artificial delays allows us to minimize the hardware gap (discrepancy in the flight time metric reduced from 37.73% to 0.5%). Thus, Air Learning with hardware-in-the-loop characterizes those differences and exposes how the onboard compute's choice affects the aerial robot's performance. We also conduct reliability studies to assess the effect of sensor failures on the learned policies. All put together, Air Learning enables a broad class of deep RL research on UAVs. The source code is available at:this http URL.

研究の動機と目的

ハイエンドデスクトップでのトレーニングと、組み込みUAVプラットフォームへの実世界でのデプロイメントの間の性能ギャップを是正すること。
リソース制限のある空中ロボット上で、深層強化学習ポリシーの現実的なベンチマーク測定を可能にすること。
軌道長やエネルギー消費量などの飛行性能指標における乖離を定量化し、是正すること。
センサ障害やハードウェア制限が学習済みポリシーに与える影響を調査すること。
自律空飛行ロボティクス分野におけるアルゴリズム・ハードウェア共同設計のための再現可能でオープンソースのプラットフォームを提供すること。

提案手法

プラットフォームは、トレーニング中にUAVエージェントが多様で困難な環境にさらされるように、ドメインランダマイゼーションを用いる。
ポイント・ツー・ポイントの障害物回避タスクのDQNおよびPPOエージェントのトレーニングを可能にする、gym互換の環境を統合する。
ハードウェアインザループのアプローチにより、Raspberry Pi などのターゲット組み込みプラットフォーム上でポリシーを実行する際の遅延分布を捉える。
測定された遅延分布から抽出した人工遅延をトレーニングループに組み込み、実際の搭載コンピューティング制限をシミュレートする。
エネルギー消費、飛行時間、平均軌道長などの飛行品質指標を用いて、パフォーマンスを評価する。
信頼性の研究では、シミュレートされたセンサ障害下でのポリシーの耐性を評価し、実世界でのデプロイメントの耐性を向上させる。

実験結果

リサーチクエスチョン

RQ1ハイエンドシステムでトレーニングされた深層強化学習ポリシーが、Raspberry Pi などの低消費電力組み込みプラットフォームにデプロイされた場合、性能にどのような差が生じるか？
RQ2UAVのシミュレーションと実世界のデプロイメントの間の性能ギャップを、トレーニング中に人工的に遅延を注入することで、どの程度是正できるか？
RQ3計算遅延などのハードウェア制限が、軌道長やエネルギー消費量といった重要な飛行品質指標にどのように影響するか？
RQ4センサ障害は、自律UAVナビゲーションにおける学習済みポリシーの耐性にどのように影響するか？
RQ5ドメインランダマイゼーションは、多様で困難なUAV環境においてポリシーの一般化を向上させるために、どのような役割を果たすか？

主な発見

組み込みRaspberry Piプラットフォームで生成された軌道は、ハイエンドデスクトップシステムで生成されたものと比べ、最大40%長くなった。これは顕著なハードウェアギャップを示している。
ターゲットプラットフォームの遅延分布から抽出した人工遅延を用いたトレーニングにより、飛行時間指標におけるハードウェアギャップが 37.73% から 0.5% にまで低減された。
トレーニング中にハードウェアインザループの遅延モデリングを適用することで、ポリシーの組み込みシステムへの移行性が顕著に向上した。
ドメインランダマイゼーションを用いてトレーニングされたポリシーは、多様な環境変化に対して優れた耐性を示した。
センサ障害の研究から、学習済みポリシーが部分的なセンサ劣化下でもナビゲーション性能を維持できることを明らかにした。これは、実世界での信頼性を向上させる要因となった。
本プラットフォームは、現実のハードウェアおよび環境制約下で、UAVにおけるRLアルゴリズムの正確で再現可能なベンチマーク測定を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。