[논문 리뷰] FixyNN: Efficient Hardware for Mobile Computer Vision via Transfer Learning
FixyNN은 고정 가중치 특징 추출기(FFE)와 프로그래머블 백엔드로 구성된 두-part CNN 아키텍처를 제안하여 모바일 하드웨어에서 높은 에너지 효율로 전이 학습 기반 비전 모델을 가능하게 한다.
The computational demands of computer vision tasks based on state-of-the-art Convolutional Neural Network (CNN) image classification far exceed the energy budgets of mobile devices. This paper proposes FixyNN, which consists of a fixed-weight feature extractor that generates ubiquitous CNN features, and a conventional programmable CNN accelerator which processes a dataset-specific CNN. Image classification models for FixyNN are trained end-to-end via transfer learning, with the common feature extractor representing the transfered part, and the programmable part being learnt on the target dataset. Experimental results demonstrate FixyNN hardware can achieve very high energy efficiencies up to 26.6 TOPS/W ($4.81 imes$ better than iso-area programmable accelerator). Over a suite of six datasets we trained models via transfer learning with an accuracy loss of $<1\%$ resulting in up to 11.2 TOPS/W - nearly $2 imes$ more efficient than a conventional programmable CNN accelerator of the same area.
연구 동기 및 목표
- 모바일 CNN 추론의 에너지와 지연을 고정 프런트 엔드 특징 추출기와 데이터셋별 백엔드로 분리하여 달성한다.
- iso-area 제약 하에서 완전 프로그래머블 가속기에 비해 고정 프런트 엔드가 더 높은 처리량과 에너지 효율을 달성할 수 있음을 Demonstrate 한다.
- 다양한 비전 작업에서 공통 FFE를 재사용하면서 정확도를 유지하면서 전이 학습이 정확도를 보존할 수 있음을 Show 한다.
제안 방법
- 고정 가중치 특징 추출기(FFE) 가속기를 설계하여 고정 가중치를 가진 native, 완전 병렬 컨볼루션을 수행하고 처리량을 최대화하며 에너지를 최소화한다.
- Line Buffers와 시프트 레지스터 기반 버퍼링을 사용하여 큰 활성화 저장소 없이도 완전 파이프라인화된 고정 가중치 CNN 계층을 가능하게 한다.
- DeepFreeze를 개발한다, TensorFlow 모델로부터 고정 가중치 CNN 하드웨어용 Verilog HDL을 자동 생성하는 오픈 소스 도구 흐름.
- 공통 FFE(MobileNet 기반)을 ImageNet에서 학습하고 엔드투엔드 전이 학습을 통해 여러 대상 데이터셋으로 전이하고 프런트를 고정한 채 백엔드를 미세 조정한다.
실험 결과
연구 질문
- RQ1여러 데이터셋에 걸쳐 CNN 프런트 엔드의 일부를 고정함으로써 얻을 수 있는 에너지 및 성능 이점은 얼마나 되는가?
- RQ2전이 학습을 적용할 때 FFE를 고정하면 다양한 데이터셋에서 정확도에 어떤 영향을 미치는가?
- RQ3iso-area 제약 하에서 FFE의 고정 층 수와 프로그래머블 백엔드 용량 간의 트레이드오프는 무엇인가?
주요 결과
- FFE는 MobileNet-0.25 계층에서 평균 8.3x의 TOPS, 68.5x의 TOPS/W의 증가로 프로그래머블 가속기보다 훨씬 높은 처리량과 에너지 효율을 제공한다.
- 면적 제약 하에서 더 많은 계층을 고정하면 처리량과 에너지 효율이 증가하며, 적합한 NVDLA 구성으로 iso-area에서 MobileNet-0.25에서 최대 2.55x의 처리량과 5.84x의 에너지 효율 증가를 달성한다.
- CIFAR-100, CIFAR-10, SVHN, Flowers102에 대해 고정 특징 추출기를 사용한 전이 학습은 정확도를 <2% 이내로 유지하면서도 완전히 고정된 네트워크보다 더 적은 고정 파라미터를 필요로 한다.
- 더 큰 MobileNet-1.00의 경우, FixyNN은 면적 예산이 >3 mm^2일 때 이점을 보이고, 첫 4개 층을 고정하면 4 mm^2에서 ~1.28x의 에너지 효율 개선을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.