Skip to main content
QUICK REVIEW

[论文解读] RL over Commodity Networks: Overcoming the Bandwidth Barrier with Lossless Sparse Deltas

Chaoyi Ruan, Geng Luo|arXiv (Cornell University)|Feb 12, 2026
Software-Defined Networks and 5G被引用 0
一句话总结

SparrowRL 利用无损稀疏增量实现对等网络上的一步异步 RL 训练,与全权广播相比显著降低传输负载并提高吞吐量。

ABSTRACT

LLM post-training with reinforcement learning (RL) requires frequent synchronization of large model parameters between the trainer and distributed rollout actors. High-throughput RL post-training therefore relies on dedicated RDMA HPC clusters, an infrastructure cost most organizations cannot absorb. A natural alternative is to aggregate loosely-coupled GPUs over standard Ethernet and WAN links, but this commodity connectivity cannot sustain full-weight broadcasts: synchronizing an 8B model can take over 100~seconds on bandwidth-limited links, while rollout generation typically takes tens of seconds. Toward making RL practical in this regime, we observe that RL fine-tuning yields highly sparse per-step updates, with only around 1\% of parameter elements changing. Atop this insight, we present SparrowRL, a novel high-performance RL training system that preserves bit-exact updates without dropping or quantizing information, designed for commodity-networked, loosely-coupled GPU resources. SparrowRL represents each step as a sparse delta checkpoint, pipelines delta extraction with multi-stream transmission, overlaps transfer with rollout generation, and coordinates heterogeneous workers with throughput- and bandwidth-aware scheduling plus lease-based fault tolerance. On Qwen3 models from 4B to 14B deployed across up to four geographic regions, SparrowRL reduces per-step transfer payload by 79$ imes$ for Qwen3-8B and improves throughput by 2.4--9.5$ imes$ over full-weight broadcast across WAN, narrowing the throughput gap relative to an ideal RDMA single-datacenter baseline to within 8.91\%. By leveraging on-demand, cross-cloud GPUs over commodity links, SparrowRL delivers 1.21--1.59$ imes$ higher tokens per dollar than reserved RDMA clusters at comparable throughput.

研究动机与目标

  • 证明 RL 微调在不同模型和算法中产生的每步参数更新极为稀疏。
  • 设计一个系统,在商品网络上传输仅稀疏增量的同时保持位级精确的更新。
  • 在没有 RDMA 的地理分布式、异构 GPU 部署中实现高吞吐量和容错性。
  • 证明稀疏增量传输可以在降低成本的同时接近 RDMA 的性能,并利用跨云 GPU。

提出的方法

  • 识别并量化跨多种模型家族和 RL 算法的 RL 权重更新稀疏性。
  • 引入无损稀疏增量检查点,仅对非零参数变化进行 delta 编码的索引。
  • 开发具有多流流水线和中继分发的 delta 传输协议,在区域间传输增量。
  • 实现异构感知调度与基于租约的容错,以协调松耦合的工作节点,同时保持一步策略延迟。
  • 在不改动 RL 算法的前提下,将稀疏增量机制与现有 RL 工具(FSDP 和 vLLM)集成。
  • 在 Qwen3 模型(4B–14B)以及最多四个区域上评估 SparrowRL,并与全权广播及 RDMA 基线进行比较。

实验结果

研究问题

  • RQ1在不同模型和 RL 算法中,每步 RL 参数更新的稀疏程度如何?
  • RQ2无损稀疏增量是否能在显著降低传输负载的同时保持位级精确更新?
  • RQ3带中继分发的流式多流传输在地理分布部署中是否能保持高吞吐?
  • RQ4异构感知调度与基于租约的容错在维持一步延迟并避免卡顿方面有多有效?
  • RQ5SparrowRL 与 WAN 上的 RDMA 基群和全权广播相比,在吞吐量和成本方面的表现如何?

主要发现

  • 在微调中,每步更新仅影响大约 1% 的参数(如 Qwen3-4B 1.12%,Qwen3-8B 2.56%,Llama3-8B 2.56%),实现了巨大的带宽节省。
  • SparrowRL 将 Qwen3-8B 的每步传输负载降低了 79×,并在 WAN 向全权广播的吞吐量提升了 2.4–9.5×。
  • 到理想 RDMA 单数据中心基线的吞吐差距缩小到 8.91%(从 90.3%)。
  • 跨云 GPU 在商品链路下的性价比高于同等吞吐量的保留 RDMA 集群,达到 1.21–1.59× 的每美元代币吞吐。
  • 系统实现了使用 delta 编码、变长索引和 LEB128 索引的无损、位精确更新。
  • Delta 检查点统一了存储与传输,确保在跨区域的状态一致性与安全激活。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。