[論文レビュー] Scaling Routers with In-Package Optics and High-Bandwidth Memories
論文は、Split-Parallel Switch (SPS) と Parallel Frame Interleaving (PFI) アルゴリズムを用いたHBMベースの共有メモリスイッチを組み込んだ、ヘテロジニアスHBM・チップレット・インパッケージ光学を活用したペタビット毎秒級のパッケート包み込みルータを提案し、パワーと面積を管理可能な範囲で高スループットを達成します。
This paper aims to apply two major scaling transformations from the computing packaging industry to internet routers: the heterogeneous integration of high-bandwidth memories (HBMs) and chiplets, as well as in-package optics. We propose a novel internet router architecture that employs these technologies to achieve a petabit/sec router within a single integrated package. At the top-level, we introduce a novel split-parallel switch architecture that spatially divides (without processing) the incoming fibers and distributes them across smaller independent switches without intermediate OEO conversions or fine-tuned per-packet load-balancing. This passive spatial division enables scaling at the cost of a coarser traffic load balancing. Yet, through extensive evaluations of backbone network traffic, we demonstrate that differences with fine-tuned approaches are small. In addition, we propose a novel HBM-based shared-memory architecture for the implementation of the smaller independent switches, and we introduce a novel parallel frame interleaving algorithm that packs traffic into frames so that HBM banks are accessed at peak HBM data rates in a cyclical interleaving manner. We further discuss why these new technologies represent a paradigm shift in the design of future internet routers. Finally, we emphasize that power consumption may constitute the primary bottleneck to scaling.
研究の動機と目的
- コンピューティングパッケージングのスケーリング傾向(HBMs、チップレット、インパッケージ光学)をインターネットルータへ適用する動機づけ。
- 単一パッケージ内でペタビット毎秒のI/Oを達成するルータ・イン・パッケージの設計。
- トラフィックを複数の小型スイッチへ受動的に分配するSplit-Parallel Switch (SPS) の導入。
- 小型スイッチがHBM帯域を活用できるようHBMベースの共有メモリアーキテクチャを開発。
- 並列フレームインタリービング(PFI)アルゴリズムを提案し、ピークHBM利用を実現するフレーム化を施す。
提案手法
- 16本のファイバーリボン(リボンあたり64ファイバー、ファイバーあたり16WDMチャネル、チャネルあたり40 Gb/s)で供給される16個の並列N×N HBMSスイッチを備えたSPSアーキテクチャを提案。
- 個別のパケットごとの電気的ロードバランシングなしで概ね均一な負荷を得るための疑似乱数的なファイバー-to-switch割り当てを使用。
- HBM4スタックをグループ化して1スイッチあたり81.92 Tb/sを実現するHBMスイッチを設計し、128チャネルの超広帯域インターフェースを使用。
- PFIを開発:フレーム統合(k=4 KBバッチを512 KBフレームへ)、Nメモリモジュールをまたいだスライス、グループ内でのバンクインタリーブ、スケジューリングなし、出力リードを循環的に行う。
- 100%スループットを保証し、少しのスピードアップで理想的な出力キューイング型共有メモリスイッチを模倣。
- 16スイッチパッケージあたり約4.096 TBのバッファとHBMスイッチあたり約794 Wを含む、実用性を主張する電力・面積・レイテンシ解析を提供。
実験結果
リサーチクエスチョン
- RQ1インパッケージ光学とHBMを用いて単一パッケージ内でペタビット毎秒級のルータを実現できるか。
- RQ2個別のパケットごとのロードバランシングなしで複数の並列HBMスイッチへトラフィックを効率的にマッピングできるか。
- RQ3高速度ルーティングのためにPeak HBMs帯域を実現するメモリアクセススケジューリングとフレーミング戦略は何か。
- RQ4このようなルータ設計の電力、面積、バッファリングへの影響はどのようになるか。
- RQ5提案アーキテクチャはバックボーンおよびAI関連トラフィックパターン下で性能を維持できるか。
主な発見
- Split-Parallel Switch (SPS) は16の並列小型スイッチを用いることで中間のOEO変換を必要とせずスケールを実現し、粗い負荷分散で高スループットを達成。
- HBM4を4スタックずつ用いるHBMベースの共有メモリスイッチは、スイッチあたり81.92 Tb/sのメモリI/Oを提供可能で、ハイスピードパケット処理を実現。
- PFIはパケットを4 KBフレームと512 KBフレームに集約し、バンクインタレーブと循環リードによりHBMデータレートのピーク達成と100%スループットを保証。
- トポロジは総パッケージI/Oを方向両向きで1.31 Pb/s、16個のHBMスイッチ全体で4.096 TBのバッファをもたらし、高速動作をサポート。
- HBMスイッチあたりの電力推定は約794 W(処理+SRAM400W、4HBMsで300W、OEO94W)、全16スイッチで約12.7 kW、面積はHBMスイッチあたり約1,284 mm²、全スイッチで大型パネルスケール基板の10%未満の領域。
- 設計はOEO変換を最小化しパッシブ分割を活用することを目指しており、 backboneおよびAIワークロードは細粒度ロードバランシングと比較して性能ギャップが小さいと評価。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。