[논문 리뷰] Network Design for Wafer-Scale Systems with Wafer-on-Wafer Hybrid Bonding
본 논문은 웨이퍼-온-웨이퍼 결합 웨이퍼에서의 레티클 배치가 웨이퍼 스케일 네트워크 토폴로지에 어떤 영향을 미치는지 연구하고, 네 가지 레티클 배치가 2D 메시 기본대비 처리량 최대 250%, 지연 시간 최대 36%, 바이트당 에너지 최대 38% 감소를 달성할 수 있음을 보인다.
Transformer-based large language models are increasingly constrained by data movement as communication bandwidth drops sharply beyond the chip boundary. Wafer-scale integration using wafer-on-wafer hybrid bonding alleviates this limitation by providing ultra-high bandwidth between reticles on bonded wafers. In this paper, we investigate how the physical placement of reticles on wafers influences the achievable network topology and the resulting communication performance. Starting from a 2D mesh-like baseline, we propose four reticle placements (Aligned, Interleaved, Rotated, and Contoured) that improve throughput by up to 250%, reduce latency by up to 36%, and decrease energy per transmitted byte by up to 38%.
연구 동기 및 목표
- 변환기 기반 ML 작업부하의 데이터 이동 병목 문제에 대한 솔루션으로서 웨이퍼 스케일 통합의 필요성을 고취한다.
- 결합 웨이퍼에서의 레티클 배치가 실현 가능한 네트워크 토폴로지를 결정하는 방식을 분석한다.
- 네트워크 메트릭을 개선하기 위해 Alignmented, Interleaved, Rotated, Contoured와 같은 레티클 배치를 제안한다.
- 통합 수준, 웨이퍼 크기 및 워크로드에 걸친 시뮬레이션을 통해 토폴로지를 평가하는 방법론을 제공한다.
제안 방법
- 각 컴퓨트 레티클을 라우터로 모델링하고 GPC와 로컬 SRAM을 포함한다.
- 두 가지 통합 수준을 정의한다: Logic-on-Interconnect (LoI)와 Logic-on-Logic (LoL); 서로 다른 웨이퍼 활용도에서 200 mm 및 300 mm 웨이퍼를 분석한다.
- 네 가지 레티클 배치와 토폴로지 및 라디کس에 미치는 영향을 탐구한다(Aligned, Interleaved, Rotated, Contoured).
- 데드락 및 라이락 프리 경로를 위한 간단한 사이클 차단(SCB)과 함께 다익스트라 라우팅을 사용한다.
- BookSim2를 사용한 사이클 정확한 플릿 수준 시뮬레이션과 Orion3.0을 통한 면적/전력 분석을 7 nm로 확장하여 합성 트래픽 및 Llama-7B 트레이스를 테스트한다.
- 벤치마크 지표에는 무부하 지연, 포화 처리량, 평균 홉 수, 라우터 면적, 네트워크 에너지가 포함된다.
실험 결과
연구 질문
- RQ1 opposing 웨이퍼의 레티클 물리적 배치가 wafer-on-wafer 하이브리드 본딩하에서 달성 가능한 웨이퍼 스케일 네트워크 토폴로지에 어떤 영향을 미치는가?
- RQ2Novel reticle placements(Aligned, Interleaved, Rotated, Contoured)이 2D 메시 기반 대비 처리량, 대기 시간 및 바이트당 에너지를 실질적으로 개선할 수 있는가?
- RQ3LoI와 LoL 통합 수준, 웨이퍼 직경, 웨이퍼 활용도가 최적화된 레티클 배치의 이점을 어떻게 좌우하는가?
- RQ4각 배치 전략의 설계/제조 복잡성과 성능 향상 간의 트레이드오프는 무엇인가?
- RQ5합성 트래픽으로 관찰된 이득이 실제 LLM 훈련 추적(Llama-7B 등)에 일반화되는가?
주요 결과
- Aligned 및 Interleaved 배치는 웨이퍼 활용도가 최대화된 구성에서 처리량을 크게 증가시키고 대기 시간을 감소시킨다.
- Rotated 배치는 평균 경로 길이의 감소와 가장 큰 라디스를 가져와 인터커넥트 레티클당 최대 7 이웃 및 최대 6 TB/s 링크를 달성한다.
- Contoured 배치가 LoL(Logic-on-Logic)에서 대부분의 경우에서 처리량을 향상시키고 Baseline 대비 대기 시간을 증가시키지 않는다.
- 통합 수준, 웨이퍼 직경 및 워크로드 전반에 걸쳐 제안된 배치들이 Baseline 대비 처리량 최대 250%, 대기 시간 36%까지 감소, 전달된 바이트당 에너지는 최대 38%까지 감소하는 이점을 제공한다.
- Llama-7B 훈련 추적은 대기 시간이 Baseline의 평균 60% 수준으로 감소하는 경향을 보이며(최고의 경우 37%), 300 mm 및 LoI 시스템에서 더 큰 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.