[论文解读] Reinforcement Learning for Opportunistic Routing in Software-Defined LEO-Terrestrial Systems
该论文提出一种残差强化学习框架,增强基于回压的SDN控制器,在LEO-地面网络中执行机会路由,降低队列长度并改善时延。
The proliferation of large-scale low Earth orbit (LEO) satellite constellations is driving the need for intelligent routing strategies that can effectively deliver data to terrestrial networks under rapidly time-varying topologies and intermittent gateway visibility. Leveraging the global control capabilities of a geostationary (GEO)-resident software-defined networking (SDN) controller, we introduce opportunistic routing, which aims to minimize delivery delay by forwarding packets to any currently available ground gateways rather than fixed destinations. This makes it a promising approach for achieving low-latency and robust data delivery in highly dynamic LEO networks. Specifically, we formulate a constrained stochastic optimization problem and employ a residual reinforcement learning framework to optimize opportunistic routing for reducing transmission delay. Simulation results over multiple days of orbital data demonstrate that our method achieves significant improvements in queue length reduction compared to classical backpressure and other well-known queueing algorithms.
研究动机与目标
- 在快速变化的LEO星座与地面网络连接中,推动智能化、低时延的路由。
- 将约束随机优化问题表述为最小化队列积压和时延。
- 开发一种残差学习方法,对回压进行LD感知的强化学习修正。
- 利用基于GEO的SDN实现 centralized control,LEOs 作为数据平面交换机发挥作用。
提出的方法
- 对LEO星座、网关可见性和带随机到达及ISL/地面链路的队列动态进行建模。
- 定义一个SDN-based控制框架,在GEO卫星集中控制,LEOs通过机会路由将分组转发至可用网关。
- 引入残差策略学习方法,在回压基线基础上加入学习得到的链路激活修正项。
- 定义状态 S(t) 包含队列长度和传输指标,定义链路激活的二元动作集合 a(t)。
- 使用DDQN智能体学习残差策略,在行动下相对于回压基线最大化折扣奖励,比较平均队列长度与最大队列长度。
- 奖励函数在整体拥塞降低与最差队列保护之间权衡,引导策略实现更高的稳定性与更低的时延。

实验结果
研究问题
- RQ1残差强化学习是否能在动态变化的LEO–地面SDN网络中,相较传统回压改善机会路由?
- RQ2LG感知的残差策略学习在不同星座规模与网关可用性下,与基线策略(回压、最大权重等)在平均队列长度与峰值队列长度方面的比较如何?
- RQ3网关可用性在塑造用于LEO网络的SDN强化学习性能方面起到何种作用?
- RQ4在现实轨道模型下,集中GEO控制能否有效协调ISL切换以最小化传递时延?
主要发现
- 残差LG-BP策略在性能上持续优于原生DDQN和回压,得到更高的奖励并降低拥塞。
- 在不同邻域规模下,相比原生DDQN,平均队列长度降低幅度为3.9%至18.1%;相对于回压,提升幅度为1.6%至12.1%。
- 在不同星座(Starlink、Iridium、OneWeb)下,该方法平均使队列长度比回压减少7.6%至16.1%。
- 该方法在平均与峰值队列指标上均有改善,且可跨不同星座规模与网关部署进行扩展。
- 网关部署策略(混合/全局)在负载均衡和最小化拥塞方面表现最佳;亚洲、欧洲、北美的覆盖情况对性能有不同影响。
- 在以LG感知的回压先验进行训练时,使用DDQN可获得显著的早期奖励提升(相对于原生DDQN提升643.81%)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。