QUICK REVIEW

[논문 리뷰] MAESTRO: An Open-source Infrastructure for Modeling Dataflows within Deep Learning Accelerators

Hyoukjun Kwon, Michael Pellauer|arXiv (Cornell University)|2018. 05. 04.

Advanced Neural Network Applications인용 수 36

한 줄 요약

MAESTRO는 도메인 특화 언어와 분석 엔진을 사용하여 다양한 하드웨어 구성에서 성능, 에너지 효율성, 버퍼 사용량, NoC 대역폭을 예측하는 오픈소스 프레임워크입니다. 이는 딥러닝 가속기에서 데이터플로우 효율성과 하드웨어 매핑의 트레이드오프를 정확하고 자동으로 분석할 수 있도록 합니다.

ABSTRACT

We present MAESTRO, a framework to describe and analyze CNN dataflows, and predict performance and energy-efficiency when running neural network layers across various hardware configurations. This includes two components: (i) a concise language to describe arbitrary dataflows and (ii) and analysis framework that accepts the dataflow description, hardware resource description, and DNN layer description as inputs and generates buffer requirements, buffer access counts, network-on-chip (NoC) bandwidth requirements, and roofline performance information. We demonstrate both components across several dataflows as case studies.

연구 동기 및 목표

딥러닝 가속기에서 데이터플로우를 모델링하고 분석하기 위한 표준화되고 확장 가능한 도구의 부족을 해결하기 위해.
연구자들과 엔지니어들이 다양한 하드웨어 구성에서 다양한 데이터플로우 매핑의 성능과 에너지 효율성 트레이드오프를 체계적으로 탐색할 수 있도록 하기 위해.
모든 CNN의 임의의 데이터플로우를 기술할 수 있는 통합적이고 형식화된 언어를 제공하여 데이터플로우 의미 체계를 하드웨어에 종속적인 세부 정보에서 분리하기 위해.
고수준의 데이터플로우 기술서에서 버퍼 요구량, 액세스 횟수, NoC 대역폭 요구량과 같은 핵심 시스템 수준 지표를 자동으로 유도하기 위해.
하드웨어-소프트웨어 공동 설계 및 최적화를 안내하기 위해 룻라인 성능 모델을 생성하는 것을 지원하기 위해.

제안 방법

이 프레임워크는 CNN의 임의의 데이터플로우 패턴, 즉 텐서 타일링, 메모리 액세스 순서, 계산 스케줄링을 기술하기 위한 간결하고 인간이 읽기 쉬운 도메인 특화 언어(DSL)를 도입합니다.
이 프레임워크는 정적 분석 엔진을 통합하여 다음과 같은 입력을 처리합니다: (1) DSL로 기술된 데이터플로우 기술서, (2) 하드웨어 자원 사양(예: 片상 메모리 크기, NoC 토폴로지), (3) DNN 레이어 파rameters(예: 커널 크기, 특징 맵 차원).
분석 엔진은 계산 단계 간의 데이터 이동과 재사용을 추적하여 버퍼 요구량을 계산하며, 片상 버퍼 사용량과 액세스 빈도를 식별합니다.
데이터플로우 액세스 패턴과 통신 토폴로지에 기반하여 처리 요소 간의 데이터 전송을 모델링함으로써 NoC 대역폭 요구량을 정량화합니다.
데이터플로우 수준의 산술 밀도와 하드웨어 제약 조건에 기반하여 최대 달성 가능한 성능을 추정함으로써 룻라인 성능 모델을 생성합니다.
이 프레임워크는 새로운 하드웨어 토폴로지, 데이터플로우 패턴, 최적화 전략을 지원하기 위해 모듈식으로 확장 가능합니다.

실험 결과

연구 질문

RQ1다양한 가속기 아키텍처에서 CNN의 임의의 데이터플로우 패턴을 기술하기 위한 형식적이고 확장 가능한 언어는 어떻게 설계할 수 있는가?
RQ2데이터플로우 기술서의 자동 분석이 딥러닝 가속기에서 버퍼 사용량, NoC 대역폭, 성능 저하 요인을 얼마나 정확하게 예측할 수 있는가?
RQ3프레임워크는 다양한 하드웨어 구성에서 다양한 데이터플로우 매핑의 성능과 에너지 효율성 트레이드오프를 얼마나 정확하게 모델링할 수 있는가?
RQ4프레임워크는 룻라인 성능 한계와 메모리 액세스 패턴과 같은 실질적인 통찰을 생성하여 가속기 설계 및 커널 최적화를 안내할 수 있는가?

주요 결과

MAESTRO는 높은 정밀도로 다양한 하드웨어 구성에서 공간적, 깊이지향적, 그룹화된 컨볼루션을 포함한 다양한 CNN 데이터플로우를 성공적으로 모델링합니다.
이 프레임워크는 버퍼 요구량과 액세스 횟수를 정확히 예측하여 가속기 설계 초기 단계에서 메모리 병목 현상을 조기에 식별할 수 있도록 합니다.
NoC 대역폭 요구량을 정량화하여 다수의 PE 아키텍처에서 확장성에 영향을 미칠 수 있는 통신 집약적인 데이터플로우를 드러냅니다.
룻라인 성능 모델링 기능을 통해 계산 집약적 영역과 메모리 집약적 영역을 식별할 수 있으며, 최적화 전략을 안내합니다.
DSL은 복잡한 데이터플로우 패턴을 압축하고 인간이 읽기 쉬운 방식으로 기술할 수 있게 하여 다양한 가속기 설계 간의 재사용과 비교를 용이하게 합니다.
분석 프레임워크는 확장성과 모듈성을 입증하였으며, 재구현 없이도 새로운 하드웨어 토폴로지와 데이터플로우 패턴을 지원할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.