Skip to main content
QUICK REVIEW

[論文レビュー] SEEKER BASED ADAPTIVE GUIDANCE VIA REINFORCEMENT META-LEARNING APPLIED TO ASTEROID CLOSE PROXIMITY OPERATIONS

Brian Gaudet, Richard Linares|arXiv (Cornell University)|Jan 1, 2019
Spacecraft Dynamics and Control被引用数 5
ひとこと要約

本論文は、事前の形状モデルがなく、未知の環境下での小惑星接近運用に適応する強化学習メタラーニングベースの誘導システムを提案する。光学サーチャーとLIDARを用い、再帰的ネットワークを介してリアルタイムのセンサ観測を推力指令にマッピングする。これにより、動的力、アクチュエータ故障、質量分布の変化に対しても頑健な適応が可能となり、ランダム化された小惑星条件下で6自由度シミュレータで成功裏に検証された。

ABSTRACT

Current practice for asteroid close proximity maneuvers requires extremely accurate characterization of the environmental dynamics and precise spacecraft positioning prior to the maneuver. This creates a delay of several months between the spacecraft's arrival and the ability to safely complete close proximity maneuvers. In this work we develop an adaptive integrated guidance, navigation, and control system that can complete these maneuvers in environments with unknown dynamics, with initial conditions spanning a large deployment region, and without a shape model of the asteroid. The system is implemented as a policy optimized using reinforcement meta-learning. The spacecraft is equipped with an optical seeker that locks to either a terrain feature, back-scattered light from a targeting laser, or an active beacon, and the policy maps observations consisting of seeker angles and LIDAR range readings directly to engine thrust commands. The policy implements a recurrent network layer that allows the deployed policy to adapt real time to both environmental forces acting on the agent and internal disturbances such as actuator failure and center of mass variation. We validate the guidance system through simulated landing maneuvers in a six degrees-of-freedom simulator. The simulator randomizes the asteroid's characteristics such as solar radiation pressure, density, spin rate, and nutation angle, requiring the guidance and control system to adapt to the environment. We also demonstrate robustness to actuator failure, sensor bias, and changes in the spacecraft's center of mass and inertia tensor. Finally, we suggest a concept of operations for asteroid close proximity maneuvers that is compatible with the guidance system.

研究の動機と目的

  • 環境および宇宙機の状態を正確に特定する必要があるため、小惑星接近運用における長時間の遅延を解消すること。
  • 動的特性が未知で、小惑星の形状モデルがない環境でも安全な接近マニューバーを可能にすること。
  • 太陽放射圧、回転、ノイズ運動などの不確実性に対応できるリアルタイムの適応誘導システムを開発すること。
  • アクチュエータ故障や重心の変動といった内部摂動に対しても頑健であること。
  • 提案された適応誘導システムと整合性のある運用概念を設計すること。

提案手法

  • 多様な小惑星環境および初期条件に一般化できるポリシーを学習するため、強化学習メタラーニングフレームワークを実装する。
  • 地形特徴、レーザーバックサイターやアクティブビーコンをロックオンすることで、リアルタイムの相対ナビゲーションを実現する光学サーチャーを用いる。
  • LIDARの距離読み取り値とサーチャーの角度を観測として統合し、推力指令を決定する。
  • ポリシーに再帰的ニューラルネットワーク層を採用して内部状態を維持し、環境的および内部的摂動に対するリアルタイム適応を可能にする。
  • ランダム化された小惑星パラメータを用いた6自由度のダイナミクスシミュレータで、シミュレートされた軌道を用いてポリシーをエンドツーエンドで訓練する。
  • 密度、回転速度、ノイズ運動角、太陽放射圧などの小惑星特性をドメインランダマイズすることで、耐性を高める。

実験結果

リサーチクエスチョン

  • RQ1事前の形状モデルがなく、動的特性が未知の広範な小惑星環境において、1つの適応ポリシーが一般化可能か?
  • RQ2太陽放射圧や小惑星の回転といったモデル化されていない環境力に対して、ポリシーはリアルタイムでどの程度適応可能か?
  • RQ3アクチュエータ故障や重心の変動がある状況でも、ポリシーは安定性と性能をどの程度維持できるか?
  • RQ4不確実な環境下で、非再帰的ポリシーと比較して、再帰的ネットワーク層の導入が適応性にどの程度寄与するか?
  • RQ5このようなシステムを実用的な小惑星接近運用の運用概念に展開可能か?

主な発見

  • 提案されたポリシーは、回転速度、ノイズ運動角、太陽放射圧のばらつきがあるランダム化された小惑星条件下でも、シミュレートされた着陸マニューバーを正常に完了した。
  • アクチュエータ故障下でも、再トレーニングなしに安定した制御を維持する、優れた性能を示した。
  • センサバイアス、宇宙機の重心および慣性テンソルの変化が、再帰的ポリシーによるリアルタイム適応のおかげで、マニューバーの成功にほとんど影響を与えなかった。
  • 事前のミッション形状モデルや正確な環境特定が不要な状態で、安全な着陸を達成した。
  • シミュレーション結果から、到着後速やかに接近マニューバーを実施可能な運用概念への展開可能性が裏付けられた。
  • 強化学習メタラーニングの活用により、多様な環境条件への一般化が可能となり、広範なミッション計画の必要性が低減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。