Skip to main content
QUICK REVIEW

[论文解读] Jellyfish: Networking Data Centers Randomly

Ankit Singla, Chi-Yao Hong|arXiv (Cornell University)|Oct 8, 2011
Interconnection Networks and Systems参考文献 28被引用 364
一句话总结

Jellyfish 提出了一种基于随机图的数据中心网络拓扑,通过在机架顶部交换机之间使用度数受限的随机互连,实现了灵活且可增量扩展的网络结构。与使用相同设备的胖树拓扑相比,Jellyfish 可支持 25% 更多的服务器,具备更高的容量、更短的路径长度,并对故障具有更强的容错能力,同时通过本地化链路布线实现了更具成本效益的布线。

ABSTRACT

Industry experience indicates that the ability to incrementally expand data centers is essential. However, existing high-bandwidth network designs have rigid structure that interferes with incremental expansion. We present Jellyfish, a high-capacity network interconnect, which, by adopting a random graph topology, yields itself naturally to incremental expansion. Somewhat surprisingly, Jellyfish is more cost-efficient than a fat-tree: A Jellyfish interconnect built using the same equipment as a fat-tree, supports as many as 25% more servers at full capacity at the scale of a few thousand nodes, and this advantage improves with scale. Jellyfish also allows great flexibility in building networks with different degrees of oversubscription. However, Jellyfish's unstructured design brings new challenges in routing, physical layout, and wiring. We describe and evaluate approaches that resolve these challenges effectively, indicating that Jellyfish could be deployed in today's data centers.

研究动机与目标

  • 为解决数据中心网络中增量扩展的挑战,这对随着工作负载增长和新应用出现而实现可扩展性至关重要。
  • 克服传统高带宽拓扑(如胖树)的结构刚性,这些拓扑通常需要大规模、非增量式的升级。
  • 设计一种网络架构,天然支持异构的交换机端口数量和任意网络规模,同时不牺牲性能。
  • 评估随机、非结构化的拓扑是否能在真实数据中心场景中实现与结构化设计(如胖树)相当或更优的性能。
  • 为非结构化随机网络开发实用的路由、物理布局和布线解决方案,以确保可部署性。

提出的方法

  • 设计一种度数受限的随机图拓扑,连接机架顶部(ToR)交换机,其中每个交换机具有固定数量的端口,连接通过随机方式形成。
  • 使用随机边交换机制,通过添加新交换机或服务器机架实现网络的渐进式扩展,而无需进行结构重构。
  • 采用两层 Jellyfish 模型:在容器(机柜组)内部和容器之间实现随机连接,支持本地化布线。
  • 通过限制部分链路由本地保留在容器内,优化布线,降低跨容器链路的复杂度。
  • 使用诸如割切带宽、平均服务器吞吐量和随机排列流量模式下的路径长度等指标,评估网络性能。
  • 通过仿真和解析建模,在不同网络规模和交换机端口数量下,将 Jellyfish 与胖树及其他结构化拓扑进行对比。

实验结果

研究问题

  • RQ1使用相同网络设备,随机图拓扑是否能够支持比结构化胖树拓扑更多的服务器?
  • RQ2与现有增量式 Clos 网络研究相比,Jellyfish 的增量扩展成本如何?
  • RQ3在不牺牲网络吞吐量的前提下,通过将跨容器链路本地化,Jellyfish 能在多大程度上降低布线复杂度?
  • RQ4与结构化拓扑相比,Jellyfish 的性能在面对网络规模和交换机端口数量增加时,其可扩展性如何?
  • RQ5在非结构化、随机的网络设计中,是否能够实现有效的路由和物理布局,以适用于真实数据中心的部署?

主要发现

  • Jellyfish 在使用相同交换机设备的情况下,可支持比胖树拓扑多 25% 的服务器,且单台服务器的带宽未降低。
  • Jellyfish 相较于胖树拓扑的性能优势随着网络规模和交换机端口数量的增加而提升,显示出更强的可扩展性。
  • 当每个交换机的 50% 链路被限制保留在容器内时,吞吐量下降不足 3%,证明了布线本地化的有效性。
  • 即使 60% 的链路被本地化,吞吐量损失仍低于 6%,而等效的胖树拓扑仅有 53.6% 的本地链路,表明 Jellyfish 在相似布线约束下具备更优的容量表现。
  • Jellyfish 的增量扩展成本仅为先前 Clos 网络增量扩展方案的 40%,显著提升了成本效率。
  • 该网络实现了更短的平均路径长度,并由于其随机且冗余的结构,对故障和错误布线表现出良好的容错能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。