QUICK REVIEW

[論文レビュー] Learning to Fly via Deep Model-Based Reinforcement Learning

Philip Becker-Ehmck, Maximilian Karl|arXiv (Cornell University)|Mar 19, 2020

Reinforcement Learning in Robotics参考文献 59被引用数 24

ひとこと要約

本論文では、学習された潜在動的モデルを用いて、ドローンの運動方程式の知識なしに、原始的なセンサデータから完全に訓練された制御器を実現するモデルベース強化学習手法を提示する。この手法により、30分未塔の実世界での経験でエンドツーエンドのフライト制御が可能となる。本手法は微分可能で確率的な軌道ロールアウトと、ラズベリー・パイ上で実行されるオンライン推論を用い、物理的知識や外部シミュレータを必要とせず、リアルタイム制御を達成する。

ABSTRACT

Learning to control robots without requiring engineered models has been a long-term goal, promising diverse and novel applications. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand of real-world interactions. In this work, by leveraging a learnt probabilistic model of drone dynamics, we learn a thrust-attitude controller for a quadrotor through model-based reinforcement learning. No prior knowledge of the flight dynamics is assumed; instead, a sequential latent variable model, used generatively and as an online filter, is learnt from raw sensory input. The controller and value function are optimised entirely by propagating stochastic analytic gradients through generated latent trajectories. We show that "learning to fly" can be achieved with less than 30 minutes of experience with a single drone, and can be deployed solely using onboard computational resources and sensors, on a self-built drone.

研究の動機と目的

ドローンの運動方程式や設計されたシミュレータに関する事前知識なしに、エンドツーエンドの四重ローター制御器の訓練を可能にすること。
学習された動的モデルを活用して、実世界でのロールアウトを大幅に削減し、データ効率の高いポリシー最適化を実現すること。
動的モデルの推論とポリシー実行を含む制御パイプラインを、低価格の埋め込みシステム（ラズベリー・パイ4）にオンボードして実装すること。
学習されたシミュレータで訓練された制御器が、部分的かつノイズの多い観測条件下でも実世界の飛行に一般化できることを示すこと。
実世界のセンサシーケンスから直接動的モデルを学習することで、手作業で設計されたシミュレータの必要性を回避し、シミュレーションから現実へのギャップを埋めること。

提案手法

変分推論に基づく潜在状態空間モデル（LSSM）を、原始的な観測（例：IMU、GPS）からエンドツーエンドに訓練し、低次元の潜在空間でドローンの運動を表現する。
動的モデルは微分可能であり、再パrameterizationトリックを用いて確率的変数を介したバックプロパゲーションにより、確率的軌道を生成し、ポリシー最適化に用いる。
ポリシーと価値関数は、学習された動的モデルと潜在軌道を介して伝搬する確率的解析的勾配を用いて訓練される。
オンライン推論ネットワーク（フィルタ）は、条件付き事後分布を用いて観測から現在の潜在状態を推定し、ドローン上でリアルタイムの状態推定を可能にする。
ポリシーは、学習されたモデルからのロールアウトを用い、潜在状態からの報酬形状を考慮して、微分可能強化学習アルゴリズム（例：SACまたはPPOに類似）により訓練される。
動的モデル、推論ネットワーク、ポリシー、価値関数のすべてのコンponentsは、深層ニューラルネットワークとして実装され、確率的勾配降下法を用いて共同最適化される。

実験結果

リサーチクエスチョン

RQ1ドローンが運動方程式や物理学に関する事前知識なしに、原始的なセンサデータのみを用いて、目的地点へ飛行させることが可能か？
RQ2学習された潜在動的モデルは、実世界での相互作用を最小限に抑え、データ効率的かつリアルタイムな制御を実現するのにどの程度有効か？
RQ3学習されたシミュレータで訓練されたモデルベース強化学習ポリシーは、シミュレーションから現実へのドメインランダマイゼーションやファインチューニングなしに、実世界への展開に一般化可能か？
RQ4低消費電力の埋め込みシステム（例：ラズベリー・パイ4）上で、完全なモデルベース制御パイプラインを実行する際の計算およびメモリのオーバーヘッドはどの程度か？
RQ5微分可能でエンドツーエンドに学習された動的モデルは、ロボット制御において、手作業で設計されたシミュレータの必要性をどの程度代替可能か？

主な発見

1つのドローンで25,000ステップのモデル学習（実世界飛行時間約30分に相当）のみを用いて、制御器が成功裏に訓練された。これは高いデータ効率を示している。
動的モデル、推論ネットワーク、ポリシーを含む制御パイプライン全体が、ラズベリー・パイ4に搭載されたセンサを用いてリアルタイムに実装・実行された。
完全な状態観測やドローンの運動方程式に関する事前知識なしに、原始的なIMUおよびGPSデータのみを用いて、安定した目的指向飛行が達成された。
学習された潜在動的モデルは、ノイズが多く部分的な観測下でも正確な状態推定を可能とし、頑健なオンライン制御を支援した。
アーキテクチャの変更なしに、異なるドローン構成においても、モデルフリーのベースラインを上回る性能を示し、一般化能力を確認した。
学習モデルを介した確率的解析的勾配の使用により、報酬形状付けやドメインランダマイゼーションに依存せず、効果的なポリシー最適化が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。