QUICK REVIEW

[논문 리뷰] PUMA: A Programmable Ultra-efficient Memristor-based Accelerator for Machine Learning Inference

Aayush Ankit, Izzat El Hajj|arXiv (Cornell University)|2019. 01. 29.

Advanced Memory and Neural Computing인용 수 30

한 줄 요약

PUMA는 고도로 효율적인 메모리스터 기반 가속기로, 고유의 명령어 집합 아키텍처(ISA)를 통해 아날로그 메모리스터 크로스바와 디지털 처리 유닛을 통합하여 기계학습 추론을 위한 프로그래머블이고 초절전 설계를 구현한다. 일반적인 기계학습 워크로드를 지원하면서도 메모리 내 계산의 효율성을 유지함으로써, 최신 GPU 대비 최대 2,446배의 에너지 효율성과 66배의 지연 시간 향상을 달성한다.

ABSTRACT

Memristor crossbars are circuits capable of performing analog matrix-vector multiplications, overcoming the fundamental energy efficiency limitations of digital logic. They have been shown to be effective in special-purpose accelerators for a limited set of neural network applications. We present the Programmable Ultra-efficient Memristor-based Accelerator (PUMA) which enhances memristor crossbars with general purpose execution units to enable the acceleration of a wide variety of Machine Learning (ML) inference workloads. PUMA's microarchitecture techniques exposed through a specialized Instruction Set Architecture (ISA) retain the efficiency of in-memory computing and analog circuitry, without compromising programmability. We also present the PUMA compiler which translates high-level code to PUMA ISA. The compiler partitions the computational graph and optimizes instruction scheduling and register allocation to generate code for large and complex workloads to run on thousands of spatial cores. We have developed a detailed architecture simulator that incorporates the functionality, timing, and power models of PUMA's components to evaluate performance and energy consumption. A PUMA accelerator running at 1 GHz can reach area and power efficiency of $577~GOPS/s/mm^2$ and $837~GOPS/s/W$, respectively. Our evaluation of diverse ML applications from image recognition, machine translation, and language modelling (5M-800M synapses) shows that PUMA achieves up to $2,446\ imes$ energy and $66\ imes$ latency improvement for inference compared to state-of-the-art GPUs. Compared to an application-specific memristor-based accelerator, PUMA incurs small energy overheads at similar inference latency and added programmability.

연구 동기 및 목표

기존 메모리스터 기반 가속기의 프로그래머블성 부족과 워크로드 특화 문제를 해결하기 위해.
단일 가속기 아키텍처에서 CNN, RNN, 트랜스포머를 포함한 다양한 기계학습 추론 워크로드를 효율적으로 실행하기 위해.
메모리스터 크로스바의 높은 에너지 효율성과 저장 밀도를 유지하면서 일반 목적 계산 능력을 추가하기 위해.
복잡한 워크로드의 면적과 전력 오버헤드를 최소화하기 위해 특화된 ISA, 컴파일러, 마이크로아키텍처를 공동 설계하기 위해.
프로그래머블 메모리스터 가속기가 에너지 효율성과 지연 시간 측면에서 GPU 및 ASIC보다 뛰어나다는 것을 입증하기 위해.

제안 방법

PUMA는 수천 개의 처리 코어로 구성된 스페이셜 아키텍처를 사용하며, 각 코어는 행렬-벡터 곱셈을 위한 메모리스터 크로스바와 스칼라 및 벡터 연산을 위한 디지털 실행 유닛을 통합한다.
고유의 명령어 집합 아키텍처(ISA)를 통해 기계학습 연산을 압축된 방식으로 인코딩함으로써 디코더의 복잡성을 감소시키고 다양한 신경망 유형을 지원한다.
시간적 SIMD 유닛과 ROM에 내장된 RAM을 사용하여 ReLU 및 소프트맥스와 같은 선형 및 초월 함수의 효율적 실행을 구현한다.
PUMA 컴파일러는 그래프 분할, 명령어 스케줄링, 레지스터 할당을 수행하여 대규모 모델용 최적화된 코드를 생성한다.
성능 및 에너지 효율성을 다양한 워크로드에서 평가하기 위해 시뮬레이터를 통해 타이밍, 전력, 면적을 상세히 모델링한다.
제조 가능성과 높은 저장 밀도를 확보하기 위해 1T1R 메모리스터 구성 방식을 채택하였으며, 탄력적인 제어 유닛을 통해 데이터 이동을 최적화한다.

실험 결과

연구 질문

RQ1메모리스터 기반 가속기가 다양한 기계학습 추론 워크로드를 지원하면서도 고도의 에너지 효율성을 달성할 수 있는가?
RQ2메모리스터 크로스바의 본질적 에너지 효율성과 저장 밀도를 훼손하지 않으면서 프로그래머블성을 어떻게 도입할 수 있는가?
RQ3메모리스터 크로스바에 일반 목적 계산 유닛을 추가함으로써 혼합 정밀도 및 비-MVM 연산에 대해 발생하는 성능 및 에너지 오버헤드는 어느 정도인가?
RQ4고유의 ISA와 컴파일러는 복잡한 신경망을 스페이셜 메모리스터 가속기로 효율적으로 매핑하는 데 얼마나 기여하는가?
RQ5프로그래머블 메모리스터 가속기는 에너지-지연 제품과 확장성 측면에서 GPU 및 전용 ASIC과 비교해 어떻게 성능을 냅니다?

주요 결과

PUMA는 1GHz에서 면적 효율성 577 GOPS/s/mm², 전력 효율성 837 GOPS/s/W를 달성하여 디지털 가속기보다 뚜렷이 뛰어난 성능을 보였다.
이미지 인식, 기계 번역, 언어 모델링 워크로드(500만~8억 개의 시냅스)에서 PUMA는 최신 GPU 대비 최대 2,446배의 낮은 에너지 소비를 기록했다.
PUMA는 GPU 대비 추론 지연 시간을 최대 66배까지 감소시켰으며, 높은 저장 밀도와 낮은 면적 오버헤드를 유지했다.
응용 분야에 특화된 메모리스터 가속기와 비교해 PUMA는 유사한 지연 시간에서 작은 에너지 오버헤드만을 유발했으며, 전체 프로그래머블성의 이점을 제공했다.
PUMA 컴파일러는 대규모 모델을 성공적으로 분할하고 최적화하여 수천 개의 스페이셜 코어에 대한 효율적인 코드 생성을 가능하게 했다.
1T1R 메모리스터 구성 방식을 사용함으로써 제조 가능성을 확보하였으며, TSMC 및 UMC와 같은 산업 파artner들이 이미 40nm CMOS 통합 메모리스터 기술을 개발 중이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.