Skip to main content
QUICK REVIEW

[논문 리뷰] EIE: Efficient Inference Engine on Compressed Deep Neural Network

Song Han, Xingyu Liu|arXiv (Cornell University)|2016. 02. 04.
Advanced Neural Network Applications인용 수 140
한 줄 요약

EIE는 가중치 공유를 가진 압축되고 희소한 DNN에서 직접 추론을 실행하는 특수한 가속기로, 활성화 희소성, 정적 가중치 희소성, 및 4비트 가중치 공유를 활용하여 CPU/GPU 기준에 비해 큰 에너지 및 속도 향상을 달성합니다.

ABSTRACT

State-of-the-art deep neural networks (DNNs) have hundreds of millions of connections and are both computationally and memory intensive, making them difficult to deploy on embedded systems with limited hardware resources and power budgets. While custom hardware helps the computation, fetching weights from DRAM is two orders of magnitude more expensive than ALU operations, and dominates the required power. Previously proposed 'Deep Compression' makes it possible to fit large DNNs (AlexNet and VGGNet) fully in on-chip SRAM. This compression is achieved by pruning the redundant connections and having multiple connections share the same weight. We propose an energy efficient inference engine (EIE) that performs inference on this compressed network model and accelerates the resulting sparse matrix-vector multiplication with weight sharing. Going from DRAM to SRAM gives EIE 120x energy saving; Exploiting sparsity saves 10x; Weight sharing gives 8x; Skipping zero activations from ReLU saves another 3x. Evaluated on nine DNN benchmarks, EIE is 189x and 13x faster when compared to CPU and GPU implementations of the same DNN without compression. EIE has a processing power of 102GOPS/s working directly on a compressed network, corresponding to 3TOPS/s on an uncompressed network, and processes FC layers of AlexNet at 1.88x10^4 frames/sec with a power dissipation of only 600mW. It is 24,000x and 3,400x more energy efficient than a CPU and GPU respectively. Compared with DaDianNao, EIE has 2.9x, 19x and 3x better throughput, energy efficiency and area efficiency.

연구 동기 및 목표

  • 임베디드 하드웨어에서 DRAM 에너지 비용으로 인해 대형 DNN을 배치하는 challenging을 동기화합니다.
  • 대형 모델을 칩 내 SRAM에 맞추기 위한 압축 기반 접근 방식(가지치기 및 가중치 공유)을 제안합니다.
  • 가속기(EIE)가 압축 네트워크에서 직접 작동하여 가중치 공유를 갖는 희소 행렬-벡터 곱셈을 가속하도록 설계합니다.
  • 여러 벤치마크에서 CPU/GPU에 비해 상당한 에너지 및 성능 향상을 입증합니다.

제안 방법

  • 4비트 가중치와 4비트 인덱스를 갖는 간섭된 압축 희소 열(CSC) 형식을 사용하여 압축된 DNN 가중치 행렬을 표현합니다.
  • 활성화 희소성 및 정적 가중치 희소성을 활용하기 위해 W의 행을 인터리브하여 네트워크를 다수의 처리 요소(PE)에 분배합니다.
  • 0이 아닌 입력 활성값을 브로드캐스트하고, 계산 중에 4비트 가중치를 16비트로 확장하여 스케일 곱-축적을 수행합니다.
  • 부하 균형을 맞추고 동적 희소성 활용을 가능하게 하기 위해 활성화 큐와 Leading Non-Zero Detection을 구현합니다.
  • 중앙 제어 장치(CCU)와 데이터 흐름을 조정하는 계층적 비제로 탐지 네트워크를 제공합니다.

실험 결과

연구 질문

  • RQ1특화 하드웨어에서 압축된 DNN을 직접 실행하여 얻을 수 있는 에너지 및 성능 이점은 어느 정도인가요?
  • RQ2가속기가 정적 가중치 희소성과 동적 활성 희소성 및 가중치 공유를 모두 활용할 수 있나요?
  • RQ3압축된 희소 DNN에 대해 처리량과 에너지 효율을 최대화하는 설계상의 트레이드오프(데이터 표현, 메모리 배열, 병렬화)는 무엇인가요?
  • RQ4압축 모델에서 작동할 때 EIE가 AlexNet, VGG-16, NeuralTalk/LSTM 등의 다양한 네트워크에서 CPU, GPU 및 모바일 GPU 기준으로 어떻게 비교되나요?

주요 결과

  • EIE는 배치 처리 없이 9개 벤치마크에서 CPU, GPU, 모바일 GPU에 대해 각각 189×, 13×, 307×의 속도 향상을 달성합니다.
  • EIE는 압축 네트워크에서 초당 102 GOPS를 제공하며, 비압축 네트워크에서 초당 3 TOPS에 해당하고, AlexNet의 FC 계층에서 소모 전력은 600 mW입니다.
  • DaDianNao와 비교하여 EIE는 처리량이 2.9×, 에너지 효율이 19×, 면적 효율이 3×입니다.
  • 전체 에너지 효율성 향상은 CPU, GPU, 모바일 GPU 대비 각각 평균적으로 24,000×, 3,400×, 2,700×에 이르며, 이는 SRAM온칩, 희소성 및 계산 축소에 의해 주도됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.