Skip to main content
QUICK REVIEW

[論文レビュー] Network Design for Wafer-Scale Systems with Wafer-on-Wafer Hybrid Bonding

Patrick Iff, Tommaso Bonato|arXiv (Cornell University)|Mar 5, 2026
3D IC and TSV technologies被引用数 0
ひとこと要約

この論文はウェハー・オン・ウェハー結合ウェーハ上のレチクル配置がウェーハスケールのネットワークトポロジーを形成することを研究し、4つのレチクル配置がスループットを最大で250%、レイテンシを最大で36%、転送毎のエネルギーを最大で38%削減し得ることを、2Dメッシュを基準とした比較で示します。

ABSTRACT

Transformer-based large language models are increasingly constrained by data movement as communication bandwidth drops sharply beyond the chip boundary. Wafer-scale integration using wafer-on-wafer hybrid bonding alleviates this limitation by providing ultra-high bandwidth between reticles on bonded wafers. In this paper, we investigate how the physical placement of reticles on wafers influences the achievable network topology and the resulting communication performance. Starting from a 2D mesh-like baseline, we propose four reticle placements (Aligned, Interleaved, Rotated, and Contoured) that improve throughput by up to 250%, reduce latency by up to 36%, and decrease energy per transmitted byte by up to 38%.

研究の動機と目的

  • トランスフォーマーベースのMLワークロードにおけるデータ移動ボトルネックの解決策としてウェーハースケール統合を動機づける。
  • 結合ウェハー上のレチクル配置が実現可能なネットワークトポロジーを決定する方法を分析する。
  • ネットワーク指標を改善するレチクル配置(Aligned、Interleaved、Rotated、Contoured)を提案する。
  • 統合レベル、ウェーハサイズ、ワークロード全体でのシミュレーションによるトポロジー評価の方法論を提供する。

提案手法

  • 各計算レチクルをルーターとしてGPCsとローカルSRAMを用いてモデル化する。
  • 2つの統合レベルを定義する:Logic-on-Interconnect (LoI)とLogic-on-Logic (LoL);ウェーハ利用率を変化させた200 mmと300 mmウェーハを分析する。
  • 4つのレチクル配置とそれらがトポロジーとラディックスへ与える影響を探索する(Aligned、Interleaved、Rotated、Contoured)。
  • デッドロック・リブロックを防ぐ単純循環破り(SCB)を用いたデスパッチ経路を含むダイクストラルーティングを使用する。
  • BookSim2でサイクル正確なフリットレベルのシミュレーションを、Orion3.0でエリア/電力を評価し、7 nmへスケールする。合成トラフィックとLlama-7Bトレースをテストする。
  • ベンチマーク指標にはゼロロード時のレイテンシ、飽和スループット、平均ホップ数、ルーター領域、ネットワークエネルギーを含む。

実験結果

リサーチクエスチョン

  • RQ1対向ウェハー上のレチクルの物理配置は、ウェーハーオンウェーハーハイブリッド結合で実現可能なウェーハスケールネットワークトポロジーにどのような影響を与えるのか。
  • RQ2新規レチクル配置(Aligned、Interleaved、Rotated、Contoured)は、2Dメッシュ基準と比較してスループット、レイテンシ、エネルギー per バイトを大幅に改善し得るのか。
  • RQ3LoIとLoLの統合レベル、ウェーハ径、ウェーハ利用率は最適化されたレチクル配置の利点にどのように影響するのか。
  • RQ4設計/製造の複雑さとパフォーマンス向上のトレードオフは各配置戦略でどうなるのか。
  • RQ5synthetic trafficで得られた利得は実世界のLLM学習 traces(例:Llama-7B)にも適用可能か。

主な発見

  • AlignedおよびInterleaved配置は、最大ウェーハ利用率で構成全体においてスループットを著しく増加させ、レイテンシを低減する。
  • Rotated配置は平均パス長の最大の低減と最高ラディックスを実現し、接続レチクルあたり最大7近傍、リンクは最大6 TB/sに達する。
  • Contoured配置はLoL(Logic-on-Logic)の場合、多くのケースでレイテンシをBaselineと同等かそれ以下に抑えつつスループットを向上させる。
  • 統合レベル、ウェーハ径、ワークロードをまたいで、提案された配置はBaselineと比較して最大で250%のスループット向上、最大で36%のレイテンシ削減、転送バイト当たりのエネルギーを最大で38%削減を提供する。
  • Llama-7Bの学習トレースは、Baselineの平均60%のレイテンシ削減を示し(最良ケース37%)、300 mmおよびLoIシステムでより大きな利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。