QUICK REVIEW

[논문 리뷰] LeFlow: Enabling Flexible FPGA High-Level Synthesis of Tensorflow Deep Neural Networks

Daniel Holanda Noronha, Bahar Salehpour|arXiv (Cornell University)|2018. 07. 14.

Parallel Computing and Optimization Techniques참고 문헌 7인용 수 28

한 줄 요약

LeFlow는 Google의 XLA 컴파일러를 활용하여 TensorFlow 기반 딥 뉴럴 네트워크의 유연하고 자동화된 고수준 합성(HLS)을 가능하게 하며, 이를 통해 LLVM 코드를 생성하고 하드웨어로 합성하는 HLS 도구를 사용한다. 이 방법은 수동 작업을 줄이고, 최소한의 파이썬 코드로 다양한 DNN 아키텍처를 지원하며, 높은 성능과 자원 효율성을 달성한다.

ABSTRACT

Recent work has shown that Field-Programmable Gate Arrays (FPGAs) play an important role in the acceleration of Machine Learning applications. Initial specification of machine learning applications are often done using a high-level Python-oriented framework such as Tensorflow, followed by a manual translation to either C or RTL for synthesis using vendor tools. This manual translation step is time-consuming and requires expertise that limit the applicability of FPGAs in this important domain. In this paper, we present an open-source tool-flow that maps numerical computation models written in Tensorflow to synthesizable hardware. Unlike other tools, which are often constrained by a small number of inflexible templates, our flow uses Google's XLA compiler which emits LLVM code directly from a Tensorflow specification. This LLVM code can then be used with a high-level synthesis tool to automatically generate hardware. We show that our flow allows users to generate Deep Neural Networks with very few lines of Python code.

연구 동기 및 목표

TensorFlow 모델을 FPGA 하드웨어로 수동으로 변환하는 데 소요되는 시간과 노력 문제를 해결하기 위해.
기존 FPGA HLS 플로우에서 정적이고 하드코딩된 템플릿에 의존하는 것을 제거하기 위해.
고수준 TensorFlow 모델에서 합성 가능한 하드웨어를 자동으로 생성하기 위해.
최소한의 사용자 간섭으로 다양한 DNN 아키텍처를 지원하기 위해.
머신 러닝 워크로드를 위한 FPGA 배포 파이프라인을 단순화하기 위해.

제안 방법

Google의 XLA 컴파일러를 사용하여 TensorFlow 계산 그래프를 LLVM IR로 하향 변환한다.
LLVM IR를 고수준 합성(HLS) 도구에 적합한 형태로 변형한다.
표준 HLS 도구체인(Vivado HLS 등)을 활용하여 LLVM 코드에서 RTL을 생성한다.
HLS 최적화 단계를 통해 자동 파ip라인화 및 자원 공유를 구현한다.
원래 TensorFlow 모델의 데이터 플로우 및 계산 의미를 유지한다.
파이썬 기반 DNN 정의에서부터 최종 합성된 FPGA 비트스트림까지의 엔드 투 엔드 플로우를 가능하게 한다.

실험 결과

연구 질문

RQ1하드코딩된 템플릿 없이도 민감하고 자동화된 플로우로 TensorFlow DNN을 FPGA 하드웨어로 매핑할 수 있는가?
RQ2XLA-LLVM 파이프라인은 고수준 모델에서 이식 가능하고 재사용 가능한 하드웨어 생성을 어떻게 가능하게 하는가?
RQ3기존 수동 RTL 설계 대비 이 플로우가 수동 작업을 얼마나 줄이는가?
RQ4수동 최적화된 구현과 비교해 결과 하드웨어의 성능과 자원 활용도는 어떠한가?
RQ5이 플로우는 최소한의 코드 변경으로 다양한 DNN 아키텍처를 지원할 수 있는가?

주요 결과

LeFlow 파이프라인은 최소한의 TensorFlow 파이썬 코드로도 합성 가능한 하드웨어를 자동으로 생성할 수 있다.
이 방법은 컨볼루션 및 완전 연결 계층을 포함한 다양한 DNN 아키텍처를 지원하며, 아키텍처 하드코딩이 필요하지 않다.
XLA와 LLVM IR의 사용은 다양한 FPGA 플랫폼 간 이식 가능하고 확장 가능한 코드 생성을 가능하게 한다.
수동 RTL 설계 대비 개발 시간과 전문 지식 요구 수준을 줄인다.
표준 DNN 벤치마크에서 성능과 자원 효율성이 경쟁력 있음을 입증한 결과 하드웨어를 도출할 수 있다.
툴체인은 오픈소스이며 기존 TensorFlow 및 HLS 생태계와 원활하게 통합된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.