[논문 리뷰] Scaling Routers with In-Package Optics and High-Bandwidth Memories
본 논문은 이종 HBM, 칩렛, 패키지 내 광학을 활용한 페타비트/초당 라우터-인-패키지를 Split-Parallel Switch(SPS)와 Parallel Frame Interleaving(PFI) 알고리즘을 통해 제시하며, 높은 처리량을 달성하되 전력과 면적을 관리하는 설계를 제시한다.
This paper aims to apply two major scaling transformations from the computing packaging industry to internet routers: the heterogeneous integration of high-bandwidth memories (HBMs) and chiplets, as well as in-package optics. We propose a novel internet router architecture that employs these technologies to achieve a petabit/sec router within a single integrated package. At the top-level, we introduce a novel split-parallel switch architecture that spatially divides (without processing) the incoming fibers and distributes them across smaller independent switches without intermediate OEO conversions or fine-tuned per-packet load-balancing. This passive spatial division enables scaling at the cost of a coarser traffic load balancing. Yet, through extensive evaluations of backbone network traffic, we demonstrate that differences with fine-tuned approaches are small. In addition, we propose a novel HBM-based shared-memory architecture for the implementation of the smaller independent switches, and we introduce a novel parallel frame interleaving algorithm that packs traffic into frames so that HBM banks are accessed at peak HBM data rates in a cyclical interleaving manner. We further discuss why these new technologies represent a paradigm shift in the design of future internet routers. Finally, we emphasize that power consumption may constitute the primary bottleneck to scaling.
연구 동기 및 목표
- 인터넷 라우터에 대한 HBM, 칩렛, 패키지 내 광학과 같은 컴퓨팅 패키징 스케일링 트렌드를 적용하려는 동기를 제공한다.
- 단일 패키지 내에서 페타비트-per-초 I/O를 달성하는 라우터-인-패키지를 설계한다.
- SPS를 도입하여 트래픽을 여러 개의 더 작은 스위치에 수동적으로 분배한다.
- 작은 스위치들이 HBM 대역폭을 활용하도록 HBM 기반 공유 메모리 아키텍처를 개발한다.
- 주요 HBM 활용을 위한 프레임 패킹 전략인 Parallel Frame Interleaving(PFI) 알고리즘을 제안한다.
제안 방법
- 16개의 병렬 N×N HBM 스위치가 16개의 광섬유 리본(리본당 64섬유, 섬유당 16 WDM 채널, 채널당 40 Gb/s)로 fed되는 SPS 아키텍처를 제안한다.
- 패킷 단위의 전자 부하 분산 없이 대략 균등한 부하를 달성하기 위해 의사 난수 광섬유-스위치 매핑을 활용한다.
- HBM4 스택을 그룹화하여 스위치당 81.92 Tb/s를 달성하고 128채널의 초광대역 인터페이스를 갖는 HBM 스위치를 설계한다.
- PFI를 개발한다: 프레임 집계(k=4 KB 배치 → 512 KB 프레임), N개의 메모리 모듈에 걸친 슬라이싱, 은행 간 인터리빙의 그룹화, 스케줄링 없음, 주기적 출력 읽기.
- 처리량 100%를 보장하고, 작은 속도 증가로 이상적인 출력 큐드 공유 메모리 스위치를 모방한다.
- 16-스위치 패키지당 약 4.096 TB의 버퍼링과 HBM 스위치당 약 794 W를 포함한 전력, 면적, 잠재 지연 분석을 통해 실용성을 주장한다.
실험 결과
연구 질문
- RQ1페타비트-per-초 라우터를 인-패키지 광학 및 HBMs를 사용하여 단일 패키지 내부에서 실현할 수 있는가?
- RQ2패킷 단위의 부하 분산 없이 트래픽을 여러 병렬 HBM 스위치에 효율적으로 맵핑하려면 어떻게 해야 하는가?
- RQ3고속 라우팅을 위한 peak HBM 대역폭을 가능하게 하는 메모리 접근 스케줄링 및 프레이밍 전략은 무엇인가?
- RQ4이러한 라우터 설계의 전력, 면적, 버퍼링에 어떤 함의가 있는가?
- RQ5제안된 아키텍처가 백본 및 AI 관련 트래픽 패턴에서 성능 저하 없이 유지되는가?
주요 결과
- Split-Parallel Switch(SPS)가 16개의 병렬 소형 스위치를 이용하여 중간 OEO 변환 없이 확장을 가능하게 하며, 거친 부하 분산으로도 높은 처리량을 달성한다.
- HBM 기반 공유 메모리 스위치는 HBM4, 스위치당 4개의 스택을 사용하여 81.92 Tb/s의 메모리 I/O를 제공하면서 고속 패킷 처리를 가능하게 한다.
- Parallel Frame Interleaving(PFI)가 패킷을 4 KB 프레임과 512 KB 프레임으로 집계하고, 뱅크 인터리빙 및 주기적 읽기를 통해 HBM 데이터 속도에 도달하고 100% 처리량을 보장한다.
- 토폴로지는 양 방향으로 총 패키지 I/O 1.31 Pb/s 및 16개 HBM 스위치에 걸친 4.096 TB의 버퍼링을 제공하여 고속 작동을 지원한다.
- HBM 스위치당 전력 추정은 약 794 W(처리+SRAM 400 W, 4개의 HBM 300 W, OEO 94 W)로, 16개 스위치 합계 약 12.7 kW이며, 면적은 HBM 스위치당 약 1,284 mm²이고 모든 스위치에 대해 대형 패널 규모 기판의 10% 미만이다.
- 설계는 OEO 변환을 최소화하고 Passive 분할을 활용하는 것을 목표로 하며, 평가 결과 백본 및 AI 작업부하에서 미세한 부하 분산과 비교해 성능 차이가 무시될 정도로 작다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.