Skip to main content
QUICK REVIEW

[논문 리뷰] SCALE-Sim: Systolic CNN Accelerator Simulator

Ananda Samajdar, Yuhao Zhu|arXiv (Cornell University)|2018. 10. 16.
Energy Harvesting in Wireless Networks참고 문헌 33인용 수 194
한 줄 요약

SCALE-Sim은 사이클 정확한 오픈 소스 시뮬레이터로, systolic-array CNN 가속기를 위한 데이터 흐름, 배열 모양, 메모리 규모화, 시스템 통합이 성능과 에너지에 미치는 영향을 탐색 가능.

ABSTRACT

Systolic Arrays are one of the most popular compute substrates within Deep Learning accelerators today, as they provide extremely high efficiency for running dense matrix multiplications. However, the research community lacks tools to insights on both the design trade-offs and efficient mapping strategies for systolic-array based accelerators. We introduce Systolic CNN Accelerator Simulator (SCALE-Sim), which is a configurable systolic array based cycle accurate DNN accelerator simulator. SCALE-Sim exposes various micro-architectural features as well as system integration parameters to the designer to enable comprehensive design space exploration. This is the first systolic-array simulator tuned for running DNNs to the best of our knowledge. Using SCALE-Sim, we conduct a suite of case studies and demonstrate the effect of bandwidth, data flow and aspect ratio on the overall runtime and energy of Deep Learning kernels across vision, speech, text, and games. We believe that these insights will be highly beneficial to architects and ML practitioners.

연구 동기 및 목표

  • 사이클-정확한, 오픈 소스 도구를 제공하여 빠른 설계 공간 탐색을 가능하게 한다.
  • 사이클 정확한, 오픈 소스 도구를 제공하여 신속한 설계 공간 탐색을 가능하게 한다.
  • 데이터 흐름, 메모리 규모, 배열 형태, 시스템 통합이 CNN 워크로드 전반에서 성능과 에너지에 미치는 영향을 보여준다.

제안 방법

  • MAC 유닛의 2D 사이클릭 배열로 행렬-행렬, 행렬-벡터, 벡터-벡터 연산이 가능하도록 계산을 모델링한다.
  • 세 가지 데이터 흐름(Output Stationary, Weight Stationary, Input Stationary)을 지원하고 재사용과 대역폭에 대한 영향을 포착한다.
  • 세 가지 논리 파트(IFMAP, filter, OFMAP)와 지연을 숨기기 위한 이중 버퍼 메모리를 갖춘 매개변수화 가능한 온칩 메모리 계층을 구현한다.
  • 호스트 프로세서에 대한 슬레이브 인터페이스를 통해 시스템 통합을 모델링하고, SRAM/DRAM 트래픽을 생성하며 DRAM 대역폭 추정 가능하게 한다.
  • 레이어별 토폴로지 CSV 및 아키텍처 구성으로 사이클-정확한 트래픽 트레이스와 요약 메트릭을 생성하고 OS 데이터 흐름에 대해 RTL과 검증한다.

실험 결과

연구 질문

  • RQ1데이터 흐름 선택(OS/WS/IS)이 배열 크기와 워크로드 하이퍼 파라미터와 어떻게 상호작용하여 사이클CNN 가속기의 성능과 에너지에 영향을 미치는가?
  • RQ2스톨 없이 작동하고 우호적인 에너지 특성을 달성하기 위한 메모리 규모 요구사항(스크래치패드 한계)은 무엇인가?
  • RQ3배열의 모양(가로세로 비)이 서로 다른 데이터 흐름 하에서 일반적인 DNN 워크로드의 성능에 어떤 영향을 주는가?
  • RQ4고정된 컴퓨트 예산에서 확장 대 확장 아키텍처(더 큰 배열 대 더 많은 배열) 간의 트레이드오프는 무엇인가?
  • RQ5다양한 네트워크 토폴로지에서 하나의 데이터 흐름을 효과적으로 사용할 수 있는가, 아니면 효율성을 위해 데이터 흐름 커스터마이징이 필수인가?

주요 결과

  • OS 데이터 흐름이 검토된 워크로드에서 종종 최상의 성능을 제공하지만, 스톨 없는 구현과 하드웨어 비용을 함께 고려해야 한다.
  • IS 및 WS는 정사각형 배열에서 더 적은 SRAM 뱅크를 요구할 수 있으며 워크로드와 배열 크기에 따라 서로 다른 성능을 보이고, 작은 배열은 IS를 선호할 수 있다.
  • 온칩 스크래치패드 메모리가 커질수록 오프칩 대역폭과 에너지가 감소하지만, 워크로드 의존적인 무릎점 이후에는 수익 감소가 나타난다.
  • 배열 모양과 데이터 흐름은 복잡하게 상호작용한다; 일부 네트워크에서는 데이터 흐름을 조정하지 않으면 길쭉한 배열이 성능이 떨어지는 반면, 정사각형 배열은 전반적으로 성능이 좋다.
  • 확대(배열 증가) vs 확장(더 많은 배열) 시 DRAM 대역폭 및 성능은 워크로드와 데이터 흐름에 따라 달라지며, 가속기 확장에서 비trivial한 트레이드오프를 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.