Skip to main content
QUICK REVIEW

[논문 리뷰] SEEKER BASED ADAPTIVE GUIDANCE VIA REINFORCEMENT META-LEARNING APPLIED TO ASTEROID CLOSE PROXIMITY OPERATIONS

Brian Gaudet, Richard Linares|arXiv (Cornell University)|2019. 01. 01.
Spacecraft Dynamics and Control인용 수 5
한 줄 요약

이 논문은 사전 형태 모델이 없는 미지의 환경에서 소행성의 근접 운영을 위한 강화 학습 메타학습 기반의 적응형 가이던스 시스템을 제안한다. 광학 탐지기와 라이다를 사용하여, 순환 신경망을 통해 실시간 센서 관측치를 추진력 명령으로 매핑함으로써, 동적 힘, 액추에이터 고장, 질량 분포 변화 등에 대한 강건한 적응성을 확보한다. 다양한 소행성 조건에서 랜덤화된 조건 하에 6자유도 시뮬레이터에서 성공적으로 검증되었다.

ABSTRACT

Current practice for asteroid close proximity maneuvers requires extremely accurate characterization of the environmental dynamics and precise spacecraft positioning prior to the maneuver. This creates a delay of several months between the spacecraft's arrival and the ability to safely complete close proximity maneuvers. In this work we develop an adaptive integrated guidance, navigation, and control system that can complete these maneuvers in environments with unknown dynamics, with initial conditions spanning a large deployment region, and without a shape model of the asteroid. The system is implemented as a policy optimized using reinforcement meta-learning. The spacecraft is equipped with an optical seeker that locks to either a terrain feature, back-scattered light from a targeting laser, or an active beacon, and the policy maps observations consisting of seeker angles and LIDAR range readings directly to engine thrust commands. The policy implements a recurrent network layer that allows the deployed policy to adapt real time to both environmental forces acting on the agent and internal disturbances such as actuator failure and center of mass variation. We validate the guidance system through simulated landing maneuvers in a six degrees-of-freedom simulator. The simulator randomizes the asteroid's characteristics such as solar radiation pressure, density, spin rate, and nutation angle, requiring the guidance and control system to adapt to the environment. We also demonstrate robustness to actuator failure, sensor bias, and changes in the spacecraft's center of mass and inertia tensor. Finally, we suggest a concept of operations for asteroid close proximity maneuvers that is compatible with the guidance system.

연구 동기 및 목표

  • 정밀한 환경 및 우주선 상태 특성 분석이 필요로 하는 소행성 근접 운영에서 발생하는 장기적인 지연 문제를 해결한다.
  • 동역학이 알려져 있지 않고 소행성 형태 모델도 없는 환경에서 안전한 근접 항행을 가능하게 한다.
  • 태양 복사 압력, 자전, 네우테이션 등의 불확실성을 다룰 수 있는 실시간 적응형 가이던스 시스템을 개발한다.
  • 액추에이터 고장 및 질량 중심 변화와 같은 내부 교란 요소에 대해 강건성을 확보한다.
  • 제안된 적응형 가이던스 시스템과 호환되는 소행성 임무를 위한 운영 개념을 설계한다.

제안 방법

  • 다양한 소행성 환경과 초기 조건에 일반화할 수 있는 정책을 훈련하기 위해 강화 학습 메타학습 프레임워크를 구현한다.
  • 광학 탐지기를 사용하여 지형 특징, 레이저 반사, 또는 활성 비콘을 잠금 잡아 실시간 상대 항법을 수행한다.
  • 탐지기 각도와 라이다 범위 읽기 값을 관측치로 통합하여 추진력 명령을 결정한다.
  • 정책에 순환 신경망 레이어를 도입하여 내부 상태를 유지하고 환경적 및 내부 교란 요소에 대한 실시간 적응을 가능하게 한다.
  • 랜덤화된 소행성 파rameter를 가진 6자유도 동역학 시뮬레이터에서 시뮬레이션된 궤도를 사용해 정책을 종합적으로 훈련한다.
  • 밀도, 자전 속도, 네우테이션 각도, 태양 복사 압력 등의 소행성 특성에 도메인 랜덤라이제이션을 적용하여 강건성을 향상시킨다.

실험 결과

연구 질문

  • RQ1일관된 적응 정책이 사전 형태 모델이 없고 동역학이 알려져 있지 않은 광범위한 소행성 환경에서 일반화될 수 있는가?
  • RQ2태양 복사 압력 및 소행성 자전과 같은 모델링되지 않은 환경적 힘에 대해 정책이 실시간으로 얼마나 잘 적응하는가?
  • RQ3액추에이터 고장 및 질량 중심 변화 상황에서 정책이 안정성과 성능을 얼마나 오랫동안 유지할 수 있는가?
  • RQ4불확실한 환경에서 비순환 정책 대비 순환 신경망 레이어의 포함이 적응 능력에 어떤 영향을 미치는가?
  • RQ5이러한 시스템을 실제 소행성 근접 운영 임무의 운영 개념에 구현할 수 있는가의 가능성은 무엇인가?

주요 결과

  • 제안된 정책는 다양한 랜덤화된 소행성 조건에서 시뮬레이션된 착륙 작업을 성공적으로 완수하였으며, 자전 속도, 네우테이션 각도, 태양 복사 압력의 변화를 포함한다.
  • 액추에이터 고장 상황에서도 시스템이 재훈련 없이도 안정적인 제어를 유지하는 강건한 성능을 보였다.
  • 실시간으로 순환 정책를 통해 적응함으로써 센서의 편향, 우주선의 질량 중심 및 관성 텐서 변화가 작업 성공에 미치는 영향이 최소화되었다.
  • 사전 임무 형태 모델이나 정밀한 환경 특성 분석 없이도 안전한 착륙을 달성하였다.
  • 시뮬레이션 결과는 시스템을 임무 운영 개념에 도입할 수 있음을 뒷받침하며, 도착 후 빠른 근접 항행 작업 수행을 가능하게 한다.
  • 강화 학습 메타학습의 활용으로 다양한 환경 조건에서의 일반화가 가능해졌고, 광범위한 사전 임무 계획의 필요성을 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.