Skip to main content
QUICK REVIEW

[논문 리뷰] DNN Dataflow Choice Is Overrated.

Xuan Yang, Mingyu Gao|arXiv (Cornell University)|2018. 09. 10.
Advanced Neural Network Applications인용 수 34
한 줄 요약

이 논문은 DNN 가속기 설계에서 데이터플로우 선택이 핵심적이라는 가정을 도전하며, Halide의 스케줄링 언어가 모든 주요 DNN 가속기 구조를 표현할 수 있음을 보여준다. 데이터플로우 대신 차단(blocking)과 메모리 계층 구조 최적화를 통해 Eyeriss 대비 최대 4.2배의 에너지 절감을 달성하였으며, 레지스터 파일 크기 감소로 2.6배의 절감과 추가 메모리 계층으로 25%의 절감을 얻었다.

ABSTRACT

Many DNN accelerators have been proposed and built using different microarchitectures and program mappings. To fairly compare these different approaches, we modified the Halide compiler to produce hardware as well as CPU and GPU code, and show that Halide's existing scheduling language has enough power to represent all existing dense DNN accelerators. Using this system we can show that the specific dataflow chosen for the accelerator is not critical to achieve good efficiency: many different dataflows yield similar energy efficiency with good performance. However, finding the best blocking and resource allocation is critical, and we achieve a 2.6X energy savings over Eyeriss system by reducing the size of the local register file. Adding an additional level in the memory hierarchy saves an additional 25%. Based on these observations, we develop an optimizer that automatically finds the optimal blocking and storage hierarchy. Compared with Eyeriss system, it achieves up to 4.2X energy improvement for Convolutional Neural Networks (CNNs), 1.6X and 1.8X improvement for Long Short-Term Memories (LSTMs) and multi-layer perceptrons (MLPs) respectively.

연구 동기 및 목표

  • 데이터플로우 선택이 DNN 가속기의 에너지 효율성에 상당한 영향을 미치는지 조사하기.
  • 스케줄링 및 메모리 계층이 높은 성능과 낮은 에너지 소비를 달성하는 데 어떤 역할을 하는지 평가하기.
  • DNN 워크로드에 최적의 차단 및 저장 계층을 찾는 자동 최적화기 개발하기.
  • 기존 가속기인 Eyeriss와 비교하여 에너지 효율성 및 성능 측면에서 제안된 방법 평가하기.

제안 방법

  • 공정한 플랫폼 간 비교를 위해 Halide 컴파일러를 확장하여 하드웨어, CPU, GPU 코드 모두 생성하기.
  • Halide의 스케줄링 언어를 사용해 기존 모든 밀도 높은 DNN 가속기의 표현 및 평가 수행하기.
  • 에너지 소비를 최소화하기 위해 차단 파라미터와 자원 할당을 체계적으로 탐색하기.
  • 외부 메모리 액세스를 줄이기 위해 추가적인 메모리 계층 수준 도입하기.
  • 맞춤형 최적화기를 사용해 최적의 차단 및 저장 구성 탐색 자동화하기.
  • 생성된 하드웨어에서 CNN, LSTM, MLP에 대해 성능 및 에너지 효율성 측정하기.

실험 결과

연구 질문

  • RQ1데이터플로우 아키텍처 선택이 DNN 가속기의 에너지 효율성에 상당한 영향을 미치는가?
  • RQ2Halide의 스케줄링 언어는 모든 알려진 DNN 가속기 마이크로아키텍처를 표현할 수 있는가?
  • RQ3에너지 효율성 측면에서 데이터플로우 선택에 비해 차단 및 메모리 계층 설계가 얼마나 중요한가?
  • RQ4로컬 레지스터 파일 크기 감소가 에너지 소비에 어떤 영향을 미치는가?
  • RQ5자동 최적화기가 Eyeriss와 같은 수작업 최적화 설계를 뛰어넘는 에너지 효율성을 달성할 수 있는가?

주요 결과

  • 데이터플로우 선택은 에너지 효율성에 미치는 영향이 미미하며, 다양한 데이터플로우가 유사한 성능과 효율성 달성 가능.
  • 로컬 레지스터 파일 크기 감소만으로도 Eyeriss 시스템 대비 2.6배의 에너지 절감 달성.
  • 추가적인 메모리 계층 수준 도입으로 25%의 추가 에너지 절감 효과.
  • 제안된 최적화기는 컬러네이션 신경망(CNNs)에 대해 Eyeriss 대비 최대 4.2배의 에너지 절감 달성.
  • LSTM과 다층 퍼셉트론(MLPs)에 대해서는 각각 1.6배 및 1.8배의 에너지 절감 달성.
  • Halide의 스케줄링 언어는 모든 기존 밀도 높은 DNN 가속기 구조를 표현할 수 있을 정도로 표현력이 충분하여 공정하고 체계적인 평가 가능.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.