QUICK REVIEW

[논문 리뷰] TensorDIMM: A Practical Near-Memory Processing Architecture for Embeddings and Tensor Operations in Deep Learning

Youngeun Kwon, Y. Lee|arXiv (Cornell University)|2019. 08. 08.

Parallel Computing and Optimization Techniques참고 문헌 48인용 수 24

한 줄 요약

TensorDIMM는 딥러닝 워크로드에서 임bedding 검색 및 텐서 연산을 가속화하기 위해 일반 메모리 모듈(DIMM)에 전용 처리 코어를 통합한 near-memory 처리 아키텍처를 제안한다. GPU 중심의 인터커넥트와 분리된 메모리 풀을 활용하여, DNN 기반 추천 시스템에서 CPU 전용 및 하이브리드 CPU-GPU 접근 방식 대비 6.2–17.6×의 성능 향상을 달성한다.

ABSTRACT

Recent studies from several hyperscalars pinpoint to embedding layers as the most memory-intensive deep learning (DL) algorithm being deployed in today's datacenters. This paper addresses the memory capacity and bandwidth challenges of embedding layers and the associated tensor operations. We present our vertically integrated hardware/software co-design, which includes a custom DIMM module enhanced with near-data processing cores tailored for DL tensor operations. These custom DIMMs are populated inside a GPU-centric system interconnect as a remote memory pool, allowing GPUs to utilize for scalable memory bandwidth and capacity expansion. A prototype implementation of our proposal on real DL systems shows an average 6.2-17.6x performance improvement on state-of-the-art recommender systems.

연구 동기 및 목표

현대 데이터센터에서 가장 메모리 집약적인 워크로드인 임베딩 레이어의 메모리 용량 및 대역폭 병목 문제를 해결한다.
대규모 임베딩 워크로드에 대한 CPU 전용 및 하이브리드 CPU-GPU 실행 모델의 성능 제약을 극복한다.
일반 DRAM과 near-memory 처리를 활용해 확장 가능한 메모리 대역폭 및 용량 증설이 가능한 실용적인 하드웨어-소프트웨어 공동 설계 시스템을 설계한다.
임베딩 연산에서 흔히 발생하는 비정규적이고 희소한 메모리 접근 패턴을 효과적으로 활용할 수 있도록 near-memory 처리를 활용할 수 있는가를 입증한다.

제안 방법

임베딩 수집 및 감소와 같은 텐서 연산에 최적화된 near-memory processing(NMP) 코어를 탑재한 커스터마이즈된 DIMM인 TensorDIMM을 도입한다.
GPU 중심의 시스템 인터커넥트에 TensorDIMM을 원격으로 분리된 메모리 풀로 구현하여 메모리 용량과 대역폭을 확장한다.
NMP 코어로의 데이터 이동 및 계산 오프로드를 관리하기 위해 커스터마이즈된 텐서 인스트럭션 세트 아키텍처(ISA)와 런타임 시스템을 설계한다.
기존 메모리 표준을 변경하지 않고도 실용적인 구현이 가능한 최소한의 수정을 가한 일반 버퍼드 DRAM 모듈을 활용한다.
특히 추천 시스템을 위한 실제 DNN 워크로드를 사용하여 FPGA 프로토타입을 구현하고 평가한다.
메모리 내에서 임베딩을 직접 처리함으로써 데이터 접근 패턴을 최적화하고, 외부 메모리 이동과 지연을 줄인다.

실험 결과

연구 질문

RQ1딥러닝에서 메모리 집약적인 임베딩 연산을 가속화하기 위해 near-memory 처리를 어떻게 효과적으로 활용할 수 있는가?
RQ2확장 가능한 메모리 대역폭과 용량을 확보하기 위해 어떤 아키텍처적 및 시스템 수준의 설계 선택이 필요한가?
RQ3일반 DIMM을 활용한 하드웨어-소프트웨어 공동 설계가 기존의 CPU 전용 또는 하이브리드 CPU-GPU 실행 방식에 비해 의미 있는 성능 향상을 이룰 수 있는가?
RQ4실제 워크로드 조건에서 near-memory 처리의 성능가 기존 CPU 기반 임베딩 검색과 비교해 볼 때 어떤가?
RQ5표준 DIMM 포맷에 NMP 코어를 통합하는 데 실용적인 타당성과 자원 오버헤드는 어떠한가?

주요 결과

TensorDIMM는 최신 DNN 기반 추천 시스템에서 CPU 전용 구현 대비 평균 6.2–15.0×의 성능 향상을 달성한다.
하이브리드 CPU-GPU 워크로드 대비 8.9–17.6×의 속도 향상을 제공하여 메모리 병목으로 인한 지연을 크게 감소시킨다.
TensorDIMM의 NMP 코어는 DRAM 대역폭을 거의 최대 수준으로 활용하며, CPU 기반 임베딩 검색에서 관찰된 <5%의 실질적 대역폭 활용률을 초월한다.
FPGA 프로토타입은 낮은 자원 오버헤드를 입증하였으며, Xilinx Virtex UltraScale+ VCU1525 보드에서 단일 NMP 코어가 LUT의 0.3%와 DSP의 0.02%만을 소비한다.
시스템 수준의 분리된 메모리 풀은 확장 가능한 메모리 용량과 대역폭을 지원하여 수백 GB가 넘는 임베딩 테이블을 처리할 수 있다.
커스터마이즈된 텐서 ISA와 런타임 시스템은 데이터 이동 및 오프로드 계산을 효과적으로 관리하여 기존 GPU 가속 추론 파이프라인과 원활한 통합을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.