QUICK REVIEW

[논문 리뷰] A Survey of FPGA-Based Neural Network Accelerator

Kaiyuan Guo, Shulin Zeng|arXiv (Cornell University)|2017. 12. 24.

Advanced Neural Network Applications참고 문헌 73인용 수 140

한 줄 요약

이 설문은 FPGA 기반 신경망 추론 가속기를 다루며, 하드웨어-소프트웨어 기법, 모델 압축, 아키텍처 전략을 상세히 설명하고 속도와 에너지 효율성을 향상시키는 방법을 GPU와 비교합니다.

ABSTRACT

Recent researches on neural network have shown significant advantage in machine learning over traditional algorithms based on handcrafted features and models. Neural network is now widely adopted in regions like image, speech and video recognition. But the high computation and storage complexity of neural network inference poses great difficulty on its application. CPU platforms are hard to offer enough computation capacity. GPU platforms are the first choice for neural network process because of its high computation capacity and easy to use development frameworks. On the other hand, FPGA-based neural network inference accelerator is becoming a research topic. With specifically designed hardware, FPGA is the next possible solution to surpass GPU in speed and energy efficiency. Various FPGA-based accelerator designs have been proposed with software and hardware optimization techniques to achieve high speed and energy efficiency. In this paper, we give an overview of previous work on neural network inference accelerators based on FPGA and summarize the main techniques used. An investigation from software to hardware, from circuit level to system level is carried out to complete analysis of FPGA-based neural network inference accelerator design and serves as a guide to future work.

연구 동기 및 목표

CPU/GPU와 비교한 FPGA 기반 NN 추론의 도전과 기회를 평가한다.
FPGA에서 높은 처리량과 에너지 효율성을 가능하게 하는 소프트웨어 및 하드웨어 최적화 기법을 요약한다.
하드웨어 지향 모델 압축 방법과 이들이 정확도 및 성능에 미치는 영향을 분석한다.
계산 유닛, 루프 언롤링, 시스템 통합에 걸친 아키텍처 설계 전략을 평가한다.
향후 FPGA 기반 NN 가속기 개발에 대한 지침을 제공한다.

제안 방법

에너지 효율성을 분석하기 위한 FPGA 기반 NN 가속기의 간단한 성능 모델을 제시한다.
데이터 양자화, 가중치 감소 및 가지치기를 하드웨어 지향 압축 기법으로 검토한다.
고정소수점 및 이질적 비트 너비 전략을 갖는 계산 단위 설계를 설명한다.
컨벌루션 계층을 위한 빠른 컨벌루션 방법(DFT/FFT, Winograd) 및 주파수 최적화를 논의한다.
처리량과 활용도를 높이기 위한 루프 언롤링, 배치 처리 및 파이프라인 전략을 설명한다.
최신 FPGA 기반 NN 가속기 설계를 비교하여 달성 가능한 성능을 추론한다.

실험 결과

연구 질문

RQ1FPGA 기반 NN 추론에서 높은 처리량과 에너지 효율을 달성하기 위한 핵심 설계 과제는 무엇인가?
RQ2하드웨어 지향 모델 압축 기법(양자화, 가지치기, 저랭크 근사치)이 FPGA에서의 정확도와 하드웨어 성능에 어떤 영향을 미치는가?
RQ3계산 단위, 루프 언롤링, 메모리 구성 등의 어떤 아키텍처 전략이 FPGA NN 가속기 성능을 가장 효과적으로 높이는가?
RQ4FPGA 구현에서 빠른 컨볼루션 및 주파수 최적화 방법의 이점과 트레이드오프는 무엇인가?
RQ5NN 추론에서 FPGA 기반 가속기가 GPU와 비교했을 때 에너지 효율성 측면에서 어떤 차이가 있는가?

주요 결과

FPGA 기반 NN 가속기는 모델 양자화 및 희소 표현을 활용하여 높은 에너지 효율을 달성할 수 있다.
하드웨어 지향 양자화(선형 및 비선형) 및 가중치 감소가 계산 및 메모리 비용을 크게 줄일 수 있다.
저비트 폭 계산 단위와 이질적 비트 폭 설계는 적절한 훈련/미세조정을 통해 정확도를 유지하면서 자원 사용을 줄인다.
빠른 컨벌루션 방법(DFT/FFT 및 Winograd)은 커널 크기와 하드웨어 제약에 따라 Conv 계층에 이론적 속도 향상을 제공한다.
고속 FPGA 설계는 공격적인 루프 언롤링, 배치 처리 및 주파수 최적화를 활용하여 처리량을 향상시키고, 메모리 접근 최적화 설계는 활용률이 더 높다.
소프트웨어 수준의 모델 압축에서 하드웨어 수준의 아키텍처 설계에 이르는 전체적인 관점이 FPGA NN 가속기 성능 최대화에 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.