Skip to main content
QUICK REVIEW

[论文解读] Dart: Divide and Specialize for Fast Response to Congestion in RDMA-Based Datacenter Networks

Jaichen Xue, Muhammad Usama Chaudhry|arXiv (Cornell University)|May 28, 2018
Cloud Computing and Resource Management参考文献 52被引用 2
一句话总结

Dart 为基于 RDMA 的数据中心提出了一种 分而治之 的拥塞控制框架,通过隔离接收方拥塞和网络内部拥塞,加速对突增流量(incast)的响应。它采用直接发送速率分配(DASR)实现对接收方拥塞的一轮往返时间(one-RTT)收敛,并引入新型有序流分流(IOFD)硬件以处理空间局部化的网络内部拥塞,从而在大规模仿真中实现比 TIMELY 和 DCQCN 低 79% 的第 99 百分位延迟和高 58% 的吞吐量。

ABSTRACT

Though Remote Direct Memory Access (RDMA) promises to reduce datacenter network latencies significantly compared to TCP (e.g., 10x), end-to-end congestion control in the presence of incasts is a challenge. Targeting the full generality of the congestion problem, previous schemes rely on slow, iterative convergence to the appropriate sending rates (e.g., TIMELY takes 50 RTTs). Several papers have shown that even in oversubscribed datacenter networks most congestion occurs at the receiver. Accordingly, we propose a divide-and-specialize approach, called Dart, which isolates the common case of receiver congestion and further subdivides the remaining in-network congestion into the simpler spatially-localized and the harder spatially-dispersed cases. For receiver congestion, we propose direct apportioning of sending rates (DASR) in which a receiver for n senders directs each sender to cut its rate by a factor of n, converging in only one RTT. For the spatially-localized case, Dart provides fast (under one RTT) response by adding novel switch hardware for in-order flow deflection (IOFD) because RDMA disallows packet reordering on which previous load balancing schemes rely. For the uncommon spatially-dispersed case, Dart falls back to DCQCN. Small-scale testbed measurements and at-scale simulations, respectively, show that Dart achieves 60% (2.5x) and 79% (4.8x) lower 99th-percentile latency, and similar and 58% higher throughput than InfiniBand, and TIMELY and DCQCN.

研究动机与目标

  • 为解决基于 RDMA 的数据中心中端到端拥塞控制收敛缓慢的问题,特别是在突增流量场景下。
  • 识别并隔离接收方拥塞这一主要延迟尾部来源,作为数据中心网络中延迟的主要成因。
  • 设计一种专用的、快速响应的机制来处理接收方拥塞,避免迭代式速率调节。
  • 通过将网络内部拥塞划分为空间局部化和空间分散两类,分别应用定制化解决方案。
  • 通过避免数据包重排序,在保持 RDMA 兼容性的同时实现快速负载均衡。

提出的方法

  • 提出 DASR(直接发送速率分配),即当接收方有 n 个发送方时,指示每个发送方将其速率降低 n 分之一,从而实现对发送方拥塞的一轮往返时间(one-RTT)收敛。
  • 在交换机中引入 IOFD(有序流分流)硬件,实现对空间局部化网络内部拥塞的快速、无重排序的负载均衡。
  • 通过在接收方确认报文中捎带发送方数量,实现 DASR 而无需全局往返时间(RTT)同步。
  • 对罕见的空间分散型拥塞情况采用 DCQCN 作为回退机制,确保系统鲁棒性。
  • 设计机制以避免数据包重排序,确保与 RDMA 严格的顺序要求兼容。
  • 利用应用层对突增组的先验知识,实现发送方速率分配的前瞻机制,这与基于 TCP 的方案不同。

实验结果

研究问题

  • RQ1能否将接收方拥塞——数据中心网络中延迟的主要来源——隔离并实现亚轮往返时间(sub-RTT)收敛?
  • RQ2能否将网络内部拥塞划分为更简单的局部化情况和更复杂的分散情况,以实现更快的响应?
  • RQ3能否为 RDMA 网络设计一种硬件辅助的、无重排序的负载均衡机制,以应对局部化拥塞?
  • RQ4与 TIMELY 和 DCQCN 等迭代式、收敛缓慢的协议相比,专用的一轮往返时间(one-RTT)拥塞控制方案在真实世界和仿真工作负载中的表现如何?
  • RQ5分而治之的方法能否在基于 RDMA 的数据中心中,同时在延迟和吞吐量方面优于通用拥塞控制方案?

主要发现

  • 在小规模测试平台测量中,Dart 实现了比 InfiniBand 低 60% 的第 99 百分位延迟(提速 2.5 倍),同时吞吐量相当。
  • 在大规模仿真中,与 TIMELY 和 DCQCN 相比,Dart 将第 99 百分位延迟降低 79%(提速 4.8 倍),吞吐量提升 58%。
  • DASR 通过让接收方通知每个发送方当前的发送方数量,实现单轮往返时间(one-RTT)收敛,从而实现立即速率调整。
  • IOFD 硬件实现了对局部化拥塞的快速、有序流分流,响应时间低于一轮往返时间(one RTT),且不违反 RDMA 的顺序约束。
  • 该方案优于 DIATCP,因为它避免了人为引入的 RTT 延迟,并实现了基于单个发送方 RTT 的发送方特定速率自适应。
  • 该框架表明,针对常见拥塞模式的专门化设计,可显著优于通用的、迭代式拥塞控制机制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。