QUICK REVIEW

[논문 리뷰] FINN-R: An End-to-End Deep-Learning Framework for Fast Exploration of Quantized Neural Networks

Michaela Blott, Thomas B. Preußer|arXiv (Cornell University)|2018. 09. 12.

Advanced Neural Network Applications참고 문헌 50인용 수 30

한 줄 요약

FINN-R는 FPGA에서 양자화된 신경망 가속기의 설계 공간 탐색과 하드웨어 생성을 자동화하는 엔드 투 엔드 딥 러닝 프레임워크입니다. 임의 정밀도를 지원하며 성능과 자원 사용량 최적화를 이루며, AWS F1에서 최대 50 TOp/s, 임베디드 플랫폼인 PYNQ-Z1에서 5 TOp/s의 성능을 달성합니다.

ABSTRACT

Convolutional Neural Networks have rapidly become the most successful machine learning algorithm, enabling ubiquitous machine vision and intelligent decisions on even embedded computing-systems. While the underlying arithmetic is structurally simple, compute and memory requirements are challenging. One of the promising opportunities is leveraging reduced-precision representations for inputs, activations and model parameters. The resulting scalability in performance, power efficiency and storage footprint provides interesting design compromises in exchange for a small reduction in accuracy. FPGAs are ideal for exploiting low-precision inference engines leveraging custom precisions to achieve the required numerical accuracy for a given application. In this article, we describe the second generation of the FINN framework, an end-to-end tool which enables design space exploration and automates the creation of fully customized inference engines on FPGAs. Given a neural network description, the tool optimizes for given platforms, design targets and a specific precision. We introduce formalizations of resource cost functions and performance predictions, and elaborate on the optimization algorithms. Finally, we evaluate a selection of reduced precision neural networks ranging from CIFAR-10 classifiers to YOLO-based object detection on a range of platforms including PYNQ and AWS\,F1, demonstrating new unprecedented measured throughput at 50TOp/s on AWS-F1 and 5TOp/s on embedded devices.

연구 동기 및 목표

자원 제약이 있는 플랫폼인 FPGA에 효율적이고 저정밀도 신경망을 구현하는 데 도전 과제를 해결합니다.
양자화된 신경망에서 정밀도, 성능, 자원 사용량 간의 설계 트레이드오프를 신속하게 탐색할 수 있도록 합니다.
다양한 신경망 아키텍처와 타겟 플랫폼에 맞는 최적화된 맞춤형 하드웨어 가속기를 자동 생성합니다.
임의 정밀도를 지원하고 프루닝 및 양자화 기법을 통합함으로써 추론의 정확성과 효율성을 향상시킵니다.
완전한 구현 사이클 없이도 설계 결정을 안내할 수 있도록 정확한 성능 및 자원 예측을 제공합니다.

제안 방법

FPGA 기반의 양자화된 신경망 가속기용 형식화된 자원 비용 함수와 성능 예측 모델을 도입합니다.
신경망 기술서를 입력으로 받아 특정 FPGA에 최적화된 하드웨어 아키텍처를 생성하는 엔드 투 엔드 워크플로우를 구현합니다.
데이터플로우(DF) 및 메모리 최적화(MO) 아키텍처를 모두 지원하며, 타겟 플랫폼 제약 조건에 따라 자동 매핑을 수행합니다.
하이레벨 합성(HLS)과 하드웨어 비용 추정을 활용하여 비트스트림 생성 이전에 성능과 자원 사용량을 예측합니다.
모델 크기와 계산 비용을 줄이면서도 정확도를 유지하기 위해 프루닝 및 양자화 기법을 통합합니다.
정밀도 선택을 안내하고 다양한 비트폭과 플랫폼 간 성능 스케일링을 평가하기 위해 루프라이너 모델링을 활용합니다.

실험 결과

연구 질문

RQ1FPGA에서 최소한의 수동 작업으로 양자화된 신경망 가속기의 설계 공간을 어떻게 효율적으로 탐색할 수 있는가?
RQ2현대 FPGA에서 임의 정밀도 양자화 네트워크로는 어떤 수준의 성능과 자원 효율성을 달성할 수 있는가?
RQ3완전한 구현 없이도 성능 및 자원 예측이 하드웨어 생성을 안내하는 데 얼마나 정확한가?
RQ4Throughput와 Latency 측면에서 데이터플로우 아키텍처와 메모리 최적화 아키텍처 간의 트레이드오프는 어떠한가?
RQ5프루닝과 양자화를 얼마나 잘 조합할 수 있는가? 이는 모델 크기와 계산 비용을 줄이면서도 정확도를 유지하는 데 기여하는가?

주요 결과

FINN-R는 AWS F1 FPGA에서 50 TOp/s를 달성하여, 양자화된 신경망 추론 분야에서 전례 없는 처리량을 입증합니다.
임베디드 플랫폼인 PYNQ-Z1에서는 5 TOp/s의 성능을 제공하여 저전력, 저면적 환경에서도 높은 효율성을 입증합니다.
데이터플로우 아키텍처의 성능 예측 정확도는 75%~99%로 높아, 구현 이전에도 신뢰할 수 있는 설계 가이던스를 제공합니다.
프레임워크는 CIFAR-10 분류기부터 YOLO 기반 객체 탐지기까지 다양한 네트워크를 PYNQ 및 AWS F1을 포함한 여러 플랫폼에서 지원합니다.
ZedBoard와 PYNQ-Z1 결과에서 이전 연구 대비 10배의 성능 향상을 보였으며, FINN-R는 더 작은 FPGA에서도 기존 가속기들을 능가하는 성능을 보입니다.
호스트 시스템에서 메모리 재구성은 저코어 플랫폼인 PYNQ-Z1에서 성능 저하를 유발할 수 있으나, 더 많은 코어를 갖춘 Ultra96과 같은 시스템에서는 이 문제가 완화됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.