[논문 리뷰] Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance
본 논문은 자율 다중 파편 랑데부(rendezvous) 임무를 위한 마스킹된 PPO 기반 강화학습 프레임워크를 제안하며, 연료 보충과 적응형 충돌 회피를 통합해 연료 사용과 임무 효율성을 최적화한다.
As the orbital environment around Earth becomes increasingly crowded with debris, active debris removal (ADR) missions face significant challenges in ensuring safe operations while minimizing the risk of in-orbit collisions. This study presents a reinforcement learning (RL) based framework to enhance adaptive collision avoidance in ADR missions, specifically for multi-debris removal using small satellites. Small satellites are increasingly adopted due to their flexibility, cost effectiveness, and maneuverability, making them well suited for dynamic missions such as ADR. Building on existing work in multi-debris rendezvous, the framework integrates refueling strategies, efficient mission planning, and adaptive collision avoidance to optimize spacecraft rendezvous operations. The proposed approach employs a masked Proximal Policy Optimization (PPO) algorithm, enabling the RL agent to dynamically adjust maneuvers in response to real-time orbital conditions. Key considerations include fuel efficiency, avoidance of active collision zones, and optimization of dynamic orbital parameters. The RL agent learns to determine efficient sequences for rendezvousing with multiple debris targets, optimizing fuel usage and mission time while incorporating necessary refueling stops. Simulated ADR scenarios derived from the Iridium 33 debris dataset are used for evaluation, covering diverse orbital configurations and debris distributions to demonstrate robustness and adaptability. Results show that the proposed RL framework reduces collision risk while improving mission efficiency compared to traditional heuristic approaches. This work provides a scalable solution for planning complex multi-debris ADR missions and is applicable to other multi-target rendezvous problems in autonomous space mission planning.
연구 동기 및 목표
- 혼잡한 LEO와 충돌 위험으로 ADR을 중요한 문제로 제기한다.
- 연료와 안전을 관리하면서 파편 방문의 순서를 정하는 자율 계획 프레임워크를 개발한다.
- 적응형 충돌 구역 및 연료 보충 결정을 RL 정책에 통합한다.
- 다양한 파편 시나리오에서 휴리스틱 및 하이브리드 기준선과의 성능을 평가한다.
제안 방법
- ADR을 궤도, 연료, 방문 마스크, 충돌 위험을 포착하는 상태를 가지는 상태공간으로 정의하는 마르코프 결정 과정(MDP)으로 형식화한다.
- 파편 랑데부, 연료 보충, 충돌 회피 행동 중에서 선택하도록 이산적, 마스킹된 PPO 정책을 사용한다.
- 확률적 33% 충돌 구역을 도입하고, 5x5x5 km 정육면체 위험 구역과 타원형 우회 CA Above/CA Below 기동을 포함한다.
- 각 상태에서 가능한 행동으로 정책을 제한하기 위해 무효 액션 마스킹을 적용한다.
- 무작위화된 파편 시나리오로 10 million steps 학습; 베이스라인과 대조하는 100개의 테스트 케이스에서 평가한다.
실험 결과
연구 질문
- RQ1역동적인 충돌 위험과 연료 제약 하에서 마스킹된 PPO 기반 RL 에이전트가 견고한 파편 방문 순서를 학습할 수 있는가?
- RQ2연료 보충의 통합이 휴리스틱 방법과 비교하여 임무 지속 시간, 파편 커버리지 및 안전성에 어떤 영향을 미치는가?
- RQ3다양한 파편 구성을 가로지르는 적응형 충돌 회피가 임무 효율성과 안전에 어떤 영향을 미치는가?
주요 결과
| Evaluation Type | Average | Max | Min |
|---|---|---|---|
| RL all | 30.4 | 31 | 29 |
| RL + Greedy CA | 29.5 | 31 | 28 |
| Greedy + RL CA | 21.6 | 23 | 21 |
| Greedy + Greedy | 19.3 | 23 | 17 |
- RL 기반 프레임워크는 전통적인 휴리스틱에 비해 충돌 위험을 줄이고 임무 효율성을 향상시킨다.
- RL-RL 모드 (정책이 순서 결정과 충돌 회피를 모두 처리)는 가장 높은 파편 커버리지를 달성한다.
- 하이브리드 모드 (RL과 그리디 또는 한 하위작업에만 RL)는 완전한 RL 기반 계획에 비해 성능이 떨어진다.
- 평가에서 100개의 무작위 사례 전반에서 RL-RL이 하이브리드 구성보다 평균적으로 더 많은 파편을 방문한다.
- CA Above/CA Below 우회 경로를 통한 충돌 회피가 필요한 여유 거리를 유지하면서 임무 진행을 가능하게 한다.
- 훈련은 약 8 million steps 후 수렴하며 보상과 행동이 안정적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.