Skip to main content
QUICK REVIEW

[논문 리뷰] Accelerating Deep Convolutional Networks using low-precision and sparsity

Ganesh Venkatesh, Eriko Nurvitadhi|arXiv (Cornell University)|2016. 10. 02.
Advanced Neural Network Applications참고 문헌 5인용 수 18
한 줄 요약

이 논문은 2비트 삼진수 가중치를 사용하는 딥 리뷰지드 네트워크를 제안하며, ImageNet에서 76.6% Top-1/93% Top-5 정확도를 달성하여 이전의 저정밀도 네트워크보다 높은 성능을 보이며, 계산량을 약 3배 감소시킨다. 또한, 0값 연산을 건너뛰는 하드웨어 가속기인 dLAC을 도입하여 저정밀도 네트워크의 흐물림을 활용해 최대 1 TFLOP/mm²의 성능 밀도를 달성한다.

ABSTRACT

We explore techniques to significantly improve the compute efficiency and performance of Deep Convolution Networks without impacting their accuracy. To improve the compute efficiency, we focus on achieving high accuracy with extremely low-precision (2-bit) weight networks, and to accelerate the execution time, we aggressively skip operations on zero-values. We achieve the highest reported accuracy of 76.6% Top-1/93% Top-5 on the Imagenet object classification challenge with low-precision network\footnote{github release of the source code coming soon} while reducing the compute requirement by ~3x compared to a full-precision network that achieves similar accuracy. Furthermore, to fully exploit the benefits of our low-precision networks, we build a deep learning accelerator core, dLAC, that can achieve up to 1 TFLOP/mm^2 equivalent for single-precision floating-point operations (~2 TFLOP/mm^2 for half-precision).

연구 동기 및 목표

  • 정확도를 훼손하지 않으면서 딥 컨volution 네트워크의 계산 효율성을 향상시키기 위해.
  • 극도로 저정밀도(2비트) 가중치를 사용하여 고정밀도 추론 및 훈련을 가능하게 하기 위해.
  • 저정밀도 네트워크의 동적 흐물림을 활용하여 계산을 가속화하기 위해.
  • 흐물림을 활용해 0값 연산을 건너뛰는 고성능, 면적 효율적인 딥 러닝 가속기(dLAC)를 설계하기 위해.
  • 더 깊은 저정밀도 네트워크가 정확도와 효율성 측면에서 얕은 전체 정밀도 모델보다 뛰어날 수 있음을 입증하기 위해.

제안 방법

  • 삼진수 가중치 양자화를 사용: 임계값 기반으로 가중치가 {-1, 0, 1}로 매핑되어 2비트 표현이 가능하다.
  • 정확도 향상을 위해 저정밀도 훈련으로 전환하기 전에 강력한 학습률 스케줄링과 전체 정밀도 사전 훈련을 적용한다.
  • 훈련 및 추론 중에 0값 가중치가 변화할 수 있도록 동적 흐물림을 적용하여 정적 프루닝을 초월하는 효과적인 흐물림을 증가시킨다.
  • 0값에 대한 승산-합산 연산을 건너뛰는 dLAC를 설계하여 효과적인 FLOP 처리량을 향상시킨다.
  • 순수 ASIC 플로우를 사용해 14nm CMOS 공정에 dLAC를 합성하여 버퍼와 산술 단위를 고밀도 및 고성능을 위해 최적화한다.
  • ResNet-34의 각 레이어에서 성능을 평가하여, 0값 건너뛰기를 통해 더 깊고 흐물림이 심한 레이어에서 더 높은 성능 향상을 보였다.

실험 결과

연구 질문

  • RQ12비트 삼진수 가중치 네트워크는 계산량을 3배 감소시키면서도 ImageNet에서 최신 기준 정확도를 달성할 수 있는가?
  • RQ2저정밀도 네트워크에서의 동적 흐물림은 정적 프루닝에 비해 계산 절감 효과와 정확도 측면에서 어떻게 비교되는가?
  • RQ30값 연산을 건너뛰는 하드웨어 가속기가 실세계 네트워크에서 1 TFLOP/mm² 이상의 성능 밀도를 달성할 수 있는가?
  • RQ4더 깊은 네트워크의 저정밀도 변형(예: ResNet-34)이 정확도와 효율성 측면에서 얕은 전체 정밀도 모델(예: ResNet-18)을 초월할 수 있는가?
  • RQ5dLAC의 성능은 깊이가 증가하고 흐물림이 증가하는 깊은 레이어에서 어떻게 변화하는가, 특히 깊은 레이어에서의 성능 스케일링은 어떻게 되는가?

주요 결과

  • 2비트 삼진수 가중치를 사용하는 ResNet-34는 ImageNet에서 76.6% Top-1 및 93% Top-5 정확도를 달성하여 저정밀도 네트워크 중에서 보고된 바 가장 높은 성능이며, 2015년 ImageNet 우수자와 1.3% 이내의 정확도를 유지한다.
  • 저정밀도 ResNet-34는 전체 정밀도 ResNet-18보다 약 3배 적은 부동소수점 연산을 필요로 하며, 정확도는 더 높다.
  • dLAC는 단일 정밀도 모드에서 최대 1 TFLOP/mm²의 성능 밀도를 유지하며, 이는 이전 가속기 대비 약 5배 높은 성능 밀도를 기록한다.
  • 0값 연산을 건너뛰어 1.8~5배의 성능 향상을 달성했으며, 이는 ResNet-34의 더 깊고 흐물림이 심한 레이어에서 더 큰 성과를 보였다.
  • dLAC는 500 MHz에서 2.5 Teraflops/초 성능을 달성했으며, 14nm 공정에서 2.2 mm²의 칩 면적을 차지하며, 더 깊은 레이어에서 더 높은 흐물림으로 인해 1 TFLOP/mm² 이상의 성능 밀도를 초월할 수 있다.
  • 저정밀도 ResNet-34는 정확도와 계산 효율성 측면에서 전체 정밀도 ResNet-18를 모두 뛰어넘었으며, 저정밀도 스케일링이 전체 정밀도 기준선을 초월할 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.