Skip to main content
QUICK REVIEW

[논문 리뷰] hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power Machine Learning Devices

Farah Fahim, Hawks, Benjamin|arXiv (Cornell University)|2021. 03. 09.
Scientific Computing and Data Management인용 수 61
한 줄 요약

학습된 신경망을 고급합성(HLS)을 통해 FPGA/ASIC 구현으로 변환하는 오픈소스 워크플로우 hls4ml을 소개하며, 양자화 인지 학습, 가지치기, 그리고 과학 분야의 저전력·저지연 ML을 위한 엔드투엔드 디바이스 백엔드를 포함한다.

ABSTRACT

Accessible machine learning algorithms, software, and diagnostic tools for energy-efficient devices and systems are extremely valuable across a broad range of application domains. In scientific domains, real-time near-sensor processing can drastically improve experimental design and accelerate scientific discoveries. To support domain scientists, we have developed hls4ml, an open-source software-hardware codesign workflow to interpret and translate machine learning algorithms for implementation with both FPGA and ASIC technologies. We expand on previous hls4ml work by extending capabilities and techniques towards low-power implementations and increased usability: new Python APIs, quantization-aware pruning, end-to-end FPGA workflows, long pipeline kernels for low power, and new device backends include an ASIC workflow. Taken together, these and continued efforts in hls4ml will arm a new generation of domain scientists with accessible, efficient, and powerful tools for machine-learning-accelerated discovery.

연구 동기 및 목표

  • ML 모델을 에너지 효율적인 FPGA/ASIC 구현으로 번역하는 오픈소스 워크플로우를 제공한다.
  • 도메인 과학자들이 공학적 노력을 줄인 상태에서 ML 하드웨어 공동설계를 수행할 수 있도록 한다.
  • 양자화 및 가지치기와 같은 학습 시 최적화를 하드웨어 친화적 워크플로우에 통합한다.
  • 저전력 ML 하드웨어의 접근성을 넓히기 위해 다수의 백엔드와 디바이스 타깃을 지원한다.
  • 엔드투엔드 워크플로우를 시연하고 하드웨어 자원/대기시간 간의 trade-off를 정량화한다.

제안 방법

  • 학습된 NN 모델을 hls4ml의 Python API 및 모델 컨버터(QKeras, TensorFlow, PyTorch, ONNX)를 사용하여 HLS 기반 하드웨어 가속기로 번역한다.
  • 정밀도 및 계산을 줄이기 위해 양자화 인지 학습(QAT), 가지치기(복권 티켓 기반 접근 포함), 층 융합과 같은 최적화를 적용한다.
  • 지연, 처리량, 전력, 자원을 균형 맞추기 위해 재사용 인자, 고정소수점 비트 폭, 가지치기 비율 등의 구성 가능 매개변수를 제공한다.
  • 벤더별 백엔드 생성(Xilinx용 Vitis HLS, Intel Quartus HLS 및 Mentor Catapult HLS에 대한 지속적 지원 포함).
  • ML 워크플로우 내에서 디버깅 및 검증을 위한 생성된 HLS 코드의 비트 정확한 파이썬 에뮬레이션을 가능하게 한다.
  • Vitis Accel 통합 및 디바이스별 고려사항을 포함한 엔드투엔드 FPGA/ASIC 워크플로우를 설명한다.

실험 결과

연구 질문

  • RQ1오픈소스 코드시그 워크플로우가 학습된 ML 모델을 에너지 효율적인 FPGA/ASIC 구현으로 어떻게 변환할 수 있는가?
  • RQ2가장 좋은 정확도 보전을 하면서 하드웨어 자원을 줄이는 학습 시 최적화(양자화, 가지치기)는 무엇인가?
  • RQ3하드웨어 설계 선택(비트 정밀도, 재사용 인자, 희소성)이 저전력 ML 디바이스의 대기시간, 처리량, 전력에 어떤 영향을 미치는가?
  • RQ4워크플로우가 다수의 백엔드 및 디바이스 타깃(FPGA/ASIC)을 실용적인 엔드투엔드 프로세스와 함께 지원할 수 있는가?
  • RQ5과학적 작업(예: 제트 분류, MNIST)에 대한 워크플로우의 실제 시연은 무엇이며 어떤 하드웨어 절감이 달성되었는가?

주요 결과

  • 양자화 인지 학습은 비트 폭을 줄인 상태에서도 유사한 정확도를 가능하게 한다(예: 특정 작업에서 6비트 QAT가 32비트 기준에 근접한 정확도를 유지).
  • QAT와 결합된 가지치기(양자화 인지 가지치기)는 대상 작업에서 성능 저하 없이 계산(BOPs) 및 하드웨어 자원을 크게 줄인다.
  • 엔드투엔드 FPGA 워크플로우(예: Vitis Accel)와 ASIC 백엔드가 지원되어 Xilinx FPGA 및 기타 플랫폼에 대한 확장 가능한 배치를 가능하게 한다.
  • 구성 가능한 재사용 인자 및 희소성 인식 커널은 DSP/LUT 사용 및 대기시간 트레이드오프를 특정 응용에 맞게 조정할 수 있음을 보여준다.
  • 하드웨어 결과는 저감된 자원(예: Xilinx FPGA에서 16비트 대비 6비트 QAT 모델의 DSP 사용이 27%에서 0.6%로 감소) 및 양자화된 모델의 대기시간 개선을 보여준다.
  • 시연에는 실용적인 FPGA 자원 및 대기시간 프로파일이 포함된 제트 분류와 MNIST가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.