[논문 리뷰] SkyNet: a Hardware-Efficient Method for Object Detection and Tracking on Embedded Systems
SkyNet은 임베디드 객체 탐지 및 추적을 위해 하드웨어 인식형 바텀업 DNN 설계를 도입하여 TX2 GPU와 Ultra96 FPGA에서 최첨단 효율성과 정확도를 달성하고 SiamRPN++ 및 SiamMask와 같은 트래커의 성능을 향상시킵니다.
Object detection and tracking are challenging tasks for resource-constrained embedded systems. While these tasks are among the most compute-intensive tasks from the artificial intelligence domain, they are only allowed to use limited computation and memory resources on embedded devices. In the meanwhile, such resource-constrained implementations are often required to satisfy additional demanding requirements such as real-time response, high-throughput performance, and reliable inference accuracy. To overcome these challenges, we propose SkyNet, a hardware-efficient neural network to deliver the state-of-the-art detection accuracy and speed for embedded systems. Instead of following the common top-down flow for compact DNN (Deep Neural Network) design, SkyNet provides a bottom-up DNN design approach with comprehensive understanding of the hardware constraints at the very beginning to deliver hardware-efficient DNNs. The effectiveness of SkyNet is demonstrated by winning the competitive System Design Contest for low power object detection in the 56th IEEE/ACM Design Automation Conference (DAC-SDC), where our SkyNet significantly outperforms all other 100+ competitors: it delivers 0.731 Intersection over Union (IoU) and 67.33 frames per second (FPS) on a TX2 embedded GPU; and 0.716 IoU and 25.05 FPS on an Ultra96 embedded FPGA. The evaluation of SkyNet is also extended to GOT-10K, a recent large-scale high-diversity benchmark for generic object tracking in the wild. For state-of-the-art object trackers SiamRPN++ and SiamMask, where ResNet-50 is employed as the backbone, implementations using our SkyNet as the backbone DNN are 1.60X and 1.73X faster with better or similar accuracy when running on a 1080Ti GPU, and 37.20X smaller in terms of parameter size for significantly better memory and storage footprint.
연구 동기 및 목표
- 제약된 자원을 가진 임베디드 디바이스에서 실시간이며 높은 정확도의 객체 탐지와 추적을 제공하는 과제를 다룬다.
- 초기부터 하드웨어 제약을 예측하는 바텀업형 하드웨어 인식 DNN 설계를 제안한다.
- 임베디드 GPU 및 FPGA 플랫폼에서 SkyNet을 시연하고 경쟁력 있는 정확도와 에너지 효율성을 보여준다.
- 최첨단 트래커의 속도 및 메모리 사용량을 개선하기 위한 백본으로 SkyNet을 확장한다.
제안 방법
- 하드웨어 인식 번들을 DNN의 기본 빌딩 블록으로 정의하고 대상 하드웨어에서 평가하여 현실적인 지연(latency) 및 자원 사용을 포착한다.
- 1단계: 정확도와 하드웨어 비용의 균형을 맞추는 유망한 구성 요소를 식별하기 위한 번들 선택 및 평가.
- 2단계: 정확도 및 지연 목표 하에서 네트워크 구성을 최적화하기 위해 그룹 기반 입자 군집 최적화(PSO)를 활용한 하드웨어 인식 DNN 탐색.
- 3단계: 작은 물체 탐지를 개선하고 하드웨어 효율성을 높이기 위해 특징 맵 우회, 재정렬, ReLU6와 같은 고급 기능을 추가.
- 반복되는 DW-Conv3 및 PW-Conv1 블록으로 구성된 SkyNet 아키텍처를 BN 및 ReLU6와 함께 제시하고, YOLO 스타일 바운딩 박스 회귀 헤드를 적응시킨다.
- FPGA를 위한 양자화 및 타일링/배치 전략으로 정확도, 메모리 및 대역폭의 균형을 이룬다.
실험 결과
연구 질문
- RQ1바텀업형 하드웨어 인식 설계 접근 방식이 임베디드 검출기의 전통적 톱다운 DNN 설계 흐름보다 우수한지 여부.
- RQ2하드웨어 피드백을 DNN 탐색 프로세스에 어떻게 통합하여 임베디드 GPU와 FPGA 모두에서 지연 및 자원 사용을 최적화할 수 있는지.
- RQ3특징 맵 우회 및 ReLU6와 같은 아키텍처 특징이 소형 객체 탐지와 하드웨어 효율성 간에 어떤 최적의 트레이드오프를 제공하는지.
- RQ4SkyNet이 ResNet-50과 비교하여 SiamRPN++ 및 SiamMask와 같은 객체 추적 파이프라인의 백본으로 얼마나 성능을 발휘하는지.
- RQ5GOT-10K 스타일 벤치마크에서 SkyNet으로 백본을 대체할 때 속도 및 메모리 사용량의 향상은 어느 정도인지
주요 결과
- SkyNet은 TX2 임베디드 GPU에서 0.731 IoU 및 67.33 FPS를 DAC-SDC에서 달성하고 Ultra96 FPGA에서 0.716 IoU 및 25.05 FPS를 달성하여 100개가 넘는 경쟁자를 능가합니다.
- SkyNet 백본은 1080Ti GPU에서 SiamRPN++에 대해 1.60배, SiamMask에 대해 1.73배의 속도 향상을 보이며 파라미터 수는 더 작아집니다(기본 백본 기준 약 37.20배).
- Abalation은 ReLU6를 포함한 SkyNet C가 DAC-SDC에서 최상의 검증 모델이며, SkyNet 백본은 파라미터 풋프린트가 작으면서 IoU가 ~0.73–0.74에 도달합니다(기본 백본 ~0.44M).
- 바텀업, 하드웨어 인식 PSO 기반 탐색은 소프트웨어 정확도와 하드웨어 지연 목표를 충족하는 DNN 후보를 식별할 수 있음을 보여주며, 효율적인 하드웨어 인식 탐색을 시연합니다.
- FPGA 특화 결과는 양자화 및 타일링/배치 전략으로 BRAM 사용을 실현 가능하게 하면서도 정확도 손실을 허용 가능한 범위 내로 관리합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.