QUICK REVIEW

[논문 리뷰] Mitigating the Bandwidth Wall via Data-Streaming System-Accelerator Co-Design

Qunyou Liu, Marina Zapater|arXiv (Cornell University)|2026. 03. 19.

Parallel Computing and Optimization Techniques인용 수 0

한 줄 요약

본 논문은 MatrixFlow를 제시한다. 이는 16×16 시소리스트릭-배열 매트릭스 가속기로, PCIe DMA를 통해 호스트 메모리에서 페이지 정렬된 4 KB 타일을 스트리밍하고, 시스템과 가속기를 트랜스포머 추론을 위해 공동 설계하기 위해 Gem5-AcceSys와 통합되어 있다. 이 접근 방식은 데이터 이동, 컴퓨트 및 메모리 계층 구조의 균형을 맞춤으로써 큰 온칩 SRAM이나 ISA 변경 없이 엔드투엔드 속도향상을 달성한다.

ABSTRACT

Transformers have revolutionized AI in natural language processing and computer vision, but their large computation and memory demands pose major challenges for hardware acceleration. In practice, end-to-end throughput is often limited by paged data movement and interconnect bandwidth rather than raw MAC count. This work proposes a unified system-accelerator co-design approach for transformer inference that jointly optimizes a matrix accelerator and its system integration through paged streaming dataflows and explicit overlap of compute and transfer. On the hardware side, we introduce MatrixFlow, a loosely coupled 16x16 systolic-array accelerator with a page-aligned block matrix multiplication method using 4 KB tiles, a small on-chip buffer of about 20 KB, and a pipelined schedule of DMA, compute, and DMA-out to utilize interconnect bandwidth efficiently. On the system side, we develop Gem5-AcceSys, an extension of the gem5 full-system simulator that explores standard interconnects such as PCIe and configurable memory hierarchies including Direct Memory, Direct Cache, and Device Memory modes with SMMU/TLB effects. We evaluate the co-design using gem5 simulations on representative transformer models including BERT and ViT across multiple data types and system setups. Results show up to 22x end-to-end speedup over a CPU-only baseline and 5x to 8x gains over state-of-the-art loosely and tightly coupled accelerators. We further show that a standard PCIe-based host-memory design can achieve about 80 percent of the performance of on-device HBM. Overall, paged streaming and pipeline overlap, rather than large local SRAMs, are the most effective levers for efficient transformer inference under realistic system constraints.

연구 동기 및 목표

원시 연산을 넘어선 트랜스포머 추론의 대역폭 및 데이터 이동 병목을 해결한다.
스트리밍 처리량을 극대화하면서 칩 내 저장소를 최소화하는 데이터 흐름 및 시스템 친화적 가속기 설계를 제안한다.
현실적인 인터커넥트 및 메모리 효과를 포착하기 위해 경량 PCIe 기반 가속기를 전체 시스템 시뮬레이터에 통합한다.
소프트웨어 런타임, 인터커넥트 및 메모리 계층의 공동 최적화를 통해 매트릭스 엔진의 높은 활용도를 유지한다.

제안 방법

MatrixFlow를 도입한다, 16×16 시소리스트릭-배열 가속기로 A, B, C용으로 3개의 4 KB SRAM 버퍼와 페이지 정렬된 4 KB 타일을 가진다.
VA/PA 변환을 위한 SMMU를 탑재하고 PCIe DMA를 통해 호스트 메모리에서 직접 데이터를 스트리밍한다.
종단 간 평가를 위한 PCIe 인터커넥트, DMA 엔진, SMMU 및 Linux 드라이버를 모델링하기 위해 Gem5-AcceSys를 개발한다.
단일 페이지 DMA 버스트를 가능하게 하고 TLB 오버헤드를 줄이기 위해 행-주로 배열된 A와 행-스트라이핑된 B를 갖는 페이지 블록 데이터 레이아웃을 채택한다.
성능에 대한 데이터 이동 및 지역성 효과를 연구하기 위해 DM, DC, DevMem 모드 전반에 대해 평가한다.
Gem5 시뮬레이션에서 CPU 기준선 및 최첨단 느슨하게 결합된 가속기와 밀접하게 결합된 가속기를 비교한다.

실험 결과

연구 질문

RQ1스트리밍되고 페이지 정렬된 데이터 이동이 매트릭스 가속기의 트랜스포머 추론 처리량에 어떤 영향을 미치는가?
RQ2최소한의 온칩 저장소를 가진 느슨하게 결합된 가속기가 최적화된 시스템 설계와 짝지어졌을 때 높은 활용도를 달성할 수 있는가?
RQ3엔드-투-엔드 트랜스포머 워크로드에서 DM, DC, DevMem 메모리 액세스 모드의 성능 트레이드오프는 무엇인가?
RQ4전체 시스템 공동 설계가 BERT와 ViT 모델에서 CPU 기준선과 특화 가속기 간의 격차를 얼마나 해소할 수 있는가?

주요 결과

CPU 전용 기준선 대비 엔드-투-엔드 추론에서 최대 22×의 속도 향상.
MatrixFlow는 전달 처리량 측면에서 최첨단 느슨하게 결합된 가속기보다 >5×, 밀접하게 결합된 가속기보다 >8× 더 우수하다.
표준 PCIe 기반 호스트 메모리 설계가 온-디바이스 HBM 메모리의 약 80%의 성능을 달성한다.
페이지 기반 스트리밍과 파이프라인 오버랩이, 큰 로컬 SRAM이 아니라, 현실적인 제약 하에서 효율적인 트랜스포머 추론을 위한 가장 효과적인 조정 매개변수이다.
20 KB의 온칩 SRAM을 갖춘 16×16 INT8/FP16/FP32 텐서 엔진은 데이터플로우와 인터커넥트가 공동 최적화될 때 루프라인 성능에 근접할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.