Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning for Opportunistic Routing in Software-Defined LEO-Terrestrial Systems

Sivaram Krishnan, Zhouyou Gu|arXiv (Cornell University)|2026. 01. 20.
Satellite Communication Systems인용 수 0
한 줄 요약

본 논문은 잔류 강화학습 프레임워크를 제안하며 이를 backpressure 기반 SDN 컨트롤러에 보강하여 LEO-지상 네트워크에서 기회적 라우팅을 수행하고 큐 길이를 줄이고 지연을 개선한다.

ABSTRACT

The proliferation of large-scale low Earth orbit (LEO) satellite constellations is driving the need for intelligent routing strategies that can effectively deliver data to terrestrial networks under rapidly time-varying topologies and intermittent gateway visibility. Leveraging the global control capabilities of a geostationary (GEO)-resident software-defined networking (SDN) controller, we introduce opportunistic routing, which aims to minimize delivery delay by forwarding packets to any currently available ground gateways rather than fixed destinations. This makes it a promising approach for achieving low-latency and robust data delivery in highly dynamic LEO networks. Specifically, we formulate a constrained stochastic optimization problem and employ a residual reinforcement learning framework to optimize opportunistic routing for reducing transmission delay. Simulation results over multiple days of orbital data demonstrate that our method achieves significant improvements in queue length reduction compared to classical backpressure and other well-known queueing algorithms.

연구 동기 및 목표

  • 지상 네트워크에 연결된 빠르게 시간 변하는 LEO 구성에서 지능적이고 저지연 라우팅을 촉진한다.
  • 대기열 잔량과 지연을 최소화하기 위한 제약된 확률적 최적화 문제를 형식화한다.
  • backpressure를 보강하는 잔류 학습 접근법으로 LD-인식 강화학습을 개발한다.
  • LEOs가 데이터-플레인 스위치로 작동하는 중앙집중식 제어를 위해 GEO 기반 SDN을 활용한다.

제안 방법

  • 확률적 도착 및 ISL/지상 링크를 사용하여 LEO 위성군, 게이트웨이 가시성, 그리고 큐 동역학을 모델링한다.
  • GEO 위성 중심으로 제어를 중앙집중화하고 LEO가 이용 가능한 게이트웨이에 기회적 라우팅으로 패킷을 전달하는 SDN 기반 제어 프레임워크를 정의한다.
  • 링크 활성화를 위한 학습된 보정항으로 backpressure 기반에 잔류 정책 학습 접근법을 도입한다.
  • 대기열 길이와 전송 지표를 포함하는 상태 S(t) 및 링크 활성화를 위한 이진 액션 집합 a(t)를 정의한다.
  • DDQN 에이전트를 사용하여 에이전트 행동 하의 평균 큐 길이와 최대 큐 길이를 백프레스(BP) 기준과 비교하여 할인된 보상을 최대화하는 잔류 정책을 학습한다.
  • 보상 함수는 전반적인 혼잡 감소와 최악의 큐를 보호하는 균형을 맞추어 정책을 더 안정적으로 만들고 지연을 낮추도록 한다.]
  • research_questions:[
Figure 1: Aggregated activity rate over the globe with the ground-track of three Starlink satellites (Orbit A, Orbit B, Orbit C), together with gateway locations and their access periods. Aggregated activity denotes the total user traffic demand (MB per time step) summed over the satellite footprint
Figure 1: Aggregated activity rate over the globe with the ground-track of three Starlink satellites (Orbit A, Orbit B, Orbit C), together with gateway locations and their access periods. Aggregated activity denotes the total user traffic demand (MB per time step) summed over the satellite footprint

실험 결과

연구 질문

  • RQ1동적으로 변화하는 LEO–지상 SDN 지원 네트워크에서 잔류 강화학습이 전통적인 backpressure에 비해 기회적 라우팅을 개선할 수 있는가?
  • RQ2다양한 성단 규모와 게이트웨이 가용성에서 LG-인식 잔류 정책 학습이 평균 및 피크 큐 길이에 대해 기저 정책(Backpressure, Max-Weight 등)과 어떻게 비교되는가?
  • RQ3LEO 네트워크에 대한 SDN 기반 강화학습 성능 형성에서 게이트웨이 가용성이 어떤 역할을 하는가?
  • RQ4현실적인 궤도 모델에서 중앙집중식 GEO 제어가 ISL 스위칭을 효과적으로 조정하여 전달 지연을 최소화할 수 있는가?

주요 결과

  • 잔류 LG-BP 정책은 일반 DDQN 및 backpressure를 일관되게 능가하여 더 높은 보상과 더 낮은 혼잡을 얻는다.
  • 평균 큐 길이 감소는 이웃 크기별로 vanilla DDQN 대비 3.9%~18.1%이며; backpressure 대비 이득은 1.6%~12.1%이다.
  • 별자리(Starlink, Iridium, OneWeb) 전반에서 제안된 방법은 backpressure 대비 평균적으로 7.6%–16.1%의 큐 길이를 감소시킨다.
  • 본 방법은 평균 및 피크 큐 지표 모두에서 개선을 달성하며 서로 다른 성단 크기 및 게이트웨이 배치에 따라 확장된다.
  • 게이트웨이 배치 전략(하이브리드/글로벌)은 하중 균형 및 혼잡 최소화에 가장 좋으며, 아시아, 유럽, 북미는 커버리지에 따라 다른 성능을 보인다.
  • DDQN으로 학습할 때 LG-인식 backpressure 사 prior를 사용할 경우(643.81% 향상) 초기 보상 이점이 크게 나타난다.
Figure 2: Residual reinforcement learning for opportunistic routing in the LEO-terrestrial system.
Figure 2: Residual reinforcement learning for opportunistic routing in the LEO-terrestrial system.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.