[论文解读] Scaling Routers with In-Package Optics and High-Bandwidth Memories
该论文提出了一种通过异构HBMs、芯片级组件和片上光通信实现的 petabit/秒级打包路由器,采用 Split-Parallel Switch (SPS) 与基于 HBMs 的共享内存交换机及 Parallel Frame Interleaving (PFI) 算法,在实现高吞吐的同时保持可控的功耗和面积。
This paper aims to apply two major scaling transformations from the computing packaging industry to internet routers: the heterogeneous integration of high-bandwidth memories (HBMs) and chiplets, as well as in-package optics. We propose a novel internet router architecture that employs these technologies to achieve a petabit/sec router within a single integrated package. At the top-level, we introduce a novel split-parallel switch architecture that spatially divides (without processing) the incoming fibers and distributes them across smaller independent switches without intermediate OEO conversions or fine-tuned per-packet load-balancing. This passive spatial division enables scaling at the cost of a coarser traffic load balancing. Yet, through extensive evaluations of backbone network traffic, we demonstrate that differences with fine-tuned approaches are small. In addition, we propose a novel HBM-based shared-memory architecture for the implementation of the smaller independent switches, and we introduce a novel parallel frame interleaving algorithm that packs traffic into frames so that HBM banks are accessed at peak HBM data rates in a cyclical interleaving manner. We further discuss why these new technologies represent a paradigm shift in the design of future internet routers. Finally, we emphasize that power consumption may constitute the primary bottleneck to scaling.
研究动机与目标
- 指出将计算打包传输趋势(HBM、芯片级组件、片内光学)应用于互联网路由器的动机。
- 设计一个在单个封装内实现 petabit/秒输入输出的路由器。
- 引入 Split-Parallel Switch (SPS) 在多个较小交换机之间被动分发流量。
- 开发基于 HBM 的共享内存架构,使较小交换机能够利用 HBM 带宽。
- 提出并行帧交错 (PFI) 算法,将流量打包到帧以达到 HBM 的峰值利用率。
提出的方法
- 提出具有 16 个并行的 N×N HBM 交换机、由 16 条光纤带提供输入的 SPS 架构(每条光纤 64 根、每根光纤 16 路 DWDM 通道、每通道 40 Gb/s)。
- 采用伪随机的光纤到交换机分配以实现大致均匀负载,而无需对每个分组进行电子负载均衡。
- 设计使用 HBMs 的交换机(HBM4 堆栈分组以实现每个交换机 81.92 Tb/s 的内存 I/O、128 通道超宽接口)。
- 开发 PFI:帧聚合(k=4 KB 的批次合并为 512 KB 的帧)、在 N 个内存模块中切片、分组进行银行交错、无调度、循环输出读取。
- 保证 100% 吞吐,并在微小加速下模拟理想的输出排队的共享内存交换机。
- 提供功耗、面积和时延分析以论证可行性,包括每 16-交换机封装约 4.096 TB 的缓冲,以及每个 HBM 交换机约 794 W 的功耗。
实验结果
研究问题
- RQ1能否在单个封装内利用片内光学和 HBMs 实现 petabit/秒级路由器?
- RQ2如何在不进行逐分组加载平衡的情况下,将流量高效映射到多组并行的 HBM 交换机?
- RQ3哪种内存访问调度与帧化策略能够实现高带宽下的峰值路由?
- RQ4此类路由器设计的功耗、面积与缓冲的影响是什么?
- RQ5提出的架构在骨干网与 AI 相关流量模式下是否保持性能?
主要发现
- Split-Parallel Switch (SPS) 具备 16 个并行较小交换机,能够在不经中间 OEO 转换的情况下实现扩展,并通过粗粒度负载均衡获得高吞吐。
- 基于 HBM 的共享内存交换机使用 HBMs(HBM4,每个交换机 4 堆栈)可提供每个交换机 81.92 Tb/s 的内存 I/O,同时实现高速分组处理。
- Parallel Frame Interleaving (PFI) 将分组聚合为 4 KB 和 512 KB 帧,结合银行交错和循环读取以达到峰值 HBM 数据速率并确保 100% 吞吐。
- 该拓扑在封装内的总 I/O 达到 1.31 Pb/s 双向,16 个 HBM 交换机覆盖 4.096 TB 缓冲,支持高速运行。
- 每个 HBM 交换机的功耗估计约 794 W(处理+ SRAM 400 W,四个 HBMs 300 W,OEO 94 W),16 个交换机总计约 12.7 kW,面积约 1,284 mm²;所有交换机在大面积基板上的占用不到 10%。
- 该设计旨在最小化 OEO 转换并利用被动分流,评估显示骨干网和 AI 工作负载的性能差距较小,与细粒度负载均衡相比几乎无差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。