Skip to main content
QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning for Six Degree-of-Freedom Planetary Powered Descent and Landing

Brian Gaudet, Richard Linares|arXiv (Cornell University)|Oct 20, 2018
Spacecraft Dynamics and Control参考文献 26被引用数 32
ひとこと要約

本論文は、火星への6自由度(6-DOF)推力降下と着陸のための、深層強化学習(PPO)に基づく統合誘導制御システムを提案する。この手法は、推定されたランダー状態を直接推力命令にマッピングする。ノイズや不確実性に対してもロバストな性能を示し、ピンポイント着陸精度(誤差 <5 m)を達成するが、最適なGPOPS解と比較して燃料消費量が18%多い。一方、従来のシステムと比較して優れた柔軟性とリアルタイム実行可能性を有する。

ABSTRACT

Future Mars missions will require advanced guidance, navigation, and control algorithms for the powered descent phase to target specific surface locations and achieve pinpoint accuracy (landing error ellipse $

研究の動機と目的

  • 6-DOF推力降下のための統合誘導制御システムを開発し、5 m未塔のピンポイント火星着陸を可能にする。
  • 3-DOFモデルの制限を克服するため、姿勢および回転制御を含む完全な宇宙船動力学を組み込む。
  • リアルタイムの状態推定値から推力命令にマッピングする方策を設計する。
  • 高精度シミュレーションにおいてセンサーノイズやシステムパrameterの不確実性に対してもロバストであることを保証する。
  • MSLやDR/DVアルゴリズムなどの既存システムと比較して、実現可能性と性能向上を示す。

提案手法

  • 状態から推力命令へのマッピングを学習する連続制御方策を訓練するために、プロキシマルポリシー最適化(PPO)という方策勾配強化学習手法を用いる。
  • 最適化収束性と性能を向上させるために、終端報酬と形状報酬のための別々の割引率を採用する。
  • 完全な並進状態の知識が不要な速度場に基づく報酬形状関数を統合し、ランダーがターゲットへ誘導されるようにする。
  • 並進運動および回転運動、推力ベクトル制御、慣性力も含む高精度なモデルを用いて6-DOF動力学をシミュレートする。
  • 9 km²および12 km²の展開楕円を含む多様な初期条件を想定したモンテカルロシミュレーション環境で方策を訓練する。
  • ナビゲーション状態推定にラオ・ブラックウェル化粒子フィルタを用い、これをリアルタイム制御のための訓練済み方策に直接入力する。

実験結果

リサーチクエスチョン

  • RQ1深層強化学習方策は、完全な6-DOF推力降下シナリオにおいて、ピンポイントの火星着陸精度(<5 m)を達成できるか?
  • RQ2燃料効率および軌道精度の観点から、6-DOF方策は3-DOF方策および最適なGPOPS解と比較してどのように異なるか?
  • RQ3形状報酬と終端報酬のための異なる割引率が、方策最適化および収束に与える影響は何か?
  • RQ4実際の着陸シナリオにおいて、センサーノイズやシステムパrameterの不確実性に対して、学習済み方策はどの程度ロバストか?
  • RQ5大規模なバイアス距離などの訓練分布外の初期条件に対しても、方策は効果的に一般化できるか?

主な発見

  • 6-DOF PPO方策は、9 km²の展開楕円において平均燃料消費量が308 kg(標準偏差25 kg、最大412 kg)を記録した。
  • ノイズやパrameter不確実性に対してロバストであり、多様な初期条件においても高い着陸精度を維持した。
  • GPOPS最適解(250 kg)と比較して18%多い燃料消費量であったが、これは方策アーキテクチャの問題ではなく、非最適な報酬形状関数に起因する。
  • 3-DOFおよび6-DOF方策は、燃料消費量と軌道性能においてほぼ同一であり、6-DOF方策が3-DOF学習から良好に一般化していることを示している。
  • 位置誤差が5 m未満、速度が2 m/s未塔のピンポイント着陸を達成し、姿勢のずれは最小限で、着陸時の回転速度はゼロであった。
  • システムは計算コストが低く、1回の制御更新でたった4回の行列乗算しか必要としないため、フライトコンピュータに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。