QUICK REVIEW

[논문 리뷰] SkyNet: a Hardware-Efficient Method for Object Detection and Tracking on Embedded Systems

Xiaofan Zhang, Haoming Lu|arXiv (Cornell University)|2019. 09. 20.

Video Surveillance and Tracking Methods참고 문헌 67인용 수 67

한 줄 요약

SkyNet은 임베디드 객체 탐지 및 추적을 위해 하드웨어 인식형 바텀업 DNN 설계를 도입하여 TX2 GPU와 Ultra96 FPGA에서 최첨단 효율성과 정확도를 달성하고 SiamRPN++ 및 SiamMask와 같은 트래커의 성능을 향상시킵니다.

ABSTRACT

Object detection and tracking are challenging tasks for resource-constrained embedded systems. While these tasks are among the most compute-intensive tasks from the artificial intelligence domain, they are only allowed to use limited computation and memory resources on embedded devices. In the meanwhile, such resource-constrained implementations are often required to satisfy additional demanding requirements such as real-time response, high-throughput performance, and reliable inference accuracy. To overcome these challenges, we propose SkyNet, a hardware-efficient neural network to deliver the state-of-the-art detection accuracy and speed for embedded systems. Instead of following the common top-down flow for compact DNN (Deep Neural Network) design, SkyNet provides a bottom-up DNN design approach with comprehensive understanding of the hardware constraints at the very beginning to deliver hardware-efficient DNNs. The effectiveness of SkyNet is demonstrated by winning the competitive System Design Contest for low power object detection in the 56th IEEE/ACM Design Automation Conference (DAC-SDC), where our SkyNet significantly outperforms all other 100+ competitors: it delivers 0.731 Intersection over Union (IoU) and 67.33 frames per second (FPS) on a TX2 embedded GPU; and 0.716 IoU and 25.05 FPS on an Ultra96 embedded FPGA. The evaluation of SkyNet is also extended to GOT-10K, a recent large-scale high-diversity benchmark for generic object tracking in the wild. For state-of-the-art object trackers SiamRPN++ and SiamMask, where ResNet-50 is employed as the backbone, implementations using our SkyNet as the backbone DNN are 1.60X and 1.73X faster with better or similar accuracy when running on a 1080Ti GPU, and 37.20X smaller in terms of parameter size for significantly better memory and storage footprint.

연구 동기 및 목표

제약된 자원을 가진 임베디드 디바이스에서 실시간이며 높은 정확도의 객체 탐지와 추적을 제공하는 과제를 다룬다.
초기부터 하드웨어 제약을 예측하는 바텀업형 하드웨어 인식 DNN 설계를 제안한다.
임베디드 GPU 및 FPGA 플랫폼에서 SkyNet을 시연하고 경쟁력 있는 정확도와 에너지 효율성을 보여준다.
최첨단 트래커의 속도 및 메모리 사용량을 개선하기 위한 백본으로 SkyNet을 확장한다.

제안 방법

하드웨어 인식 번들을 DNN의 기본 빌딩 블록으로 정의하고 대상 하드웨어에서 평가하여 현실적인 지연(latency) 및 자원 사용을 포착한다.
1단계: 정확도와 하드웨어 비용의 균형을 맞추는 유망한 구성 요소를 식별하기 위한 번들 선택 및 평가.
2단계: 정확도 및 지연 목표 하에서 네트워크 구성을 최적화하기 위해 그룹 기반 입자 군집 최적화(PSO)를 활용한 하드웨어 인식 DNN 탐색.
3단계: 작은 물체 탐지를 개선하고 하드웨어 효율성을 높이기 위해 특징 맵 우회, 재정렬, ReLU6와 같은 고급 기능을 추가.
반복되는 DW-Conv3 및 PW-Conv1 블록으로 구성된 SkyNet 아키텍처를 BN 및 ReLU6와 함께 제시하고, YOLO 스타일 바운딩 박스 회귀 헤드를 적응시킨다.
FPGA를 위한 양자화 및 타일링/배치 전략으로 정확도, 메모리 및 대역폭의 균형을 이룬다.

실험 결과

연구 질문

RQ1바텀업형 하드웨어 인식 설계 접근 방식이 임베디드 검출기의 전통적 톱다운 DNN 설계 흐름보다 우수한지 여부.
RQ2하드웨어 피드백을 DNN 탐색 프로세스에 어떻게 통합하여 임베디드 GPU와 FPGA 모두에서 지연 및 자원 사용을 최적화할 수 있는지.
RQ3특징 맵 우회 및 ReLU6와 같은 아키텍처 특징이 소형 객체 탐지와 하드웨어 효율성 간에 어떤 최적의 트레이드오프를 제공하는지.
RQ4SkyNet이 ResNet-50과 비교하여 SiamRPN++ 및 SiamMask와 같은 객체 추적 파이프라인의 백본으로 얼마나 성능을 발휘하는지.
RQ5GOT-10K 스타일 벤치마크에서 SkyNet으로 백본을 대체할 때 속도 및 메모리 사용량의 향상은 어느 정도인지

주요 결과

SkyNet은 TX2 임베디드 GPU에서 0.731 IoU 및 67.33 FPS를 DAC-SDC에서 달성하고 Ultra96 FPGA에서 0.716 IoU 및 25.05 FPS를 달성하여 100개가 넘는 경쟁자를 능가합니다.
SkyNet 백본은 1080Ti GPU에서 SiamRPN++에 대해 1.60배, SiamMask에 대해 1.73배의 속도 향상을 보이며 파라미터 수는 더 작아집니다(기본 백본 기준 약 37.20배).
Abalation은 ReLU6를 포함한 SkyNet C가 DAC-SDC에서 최상의 검증 모델이며, SkyNet 백본은 파라미터 풋프린트가 작으면서 IoU가 ~0.73–0.74에 도달합니다(기본 백본 ~0.44M).
바텀업, 하드웨어 인식 PSO 기반 탐색은 소프트웨어 정확도와 하드웨어 지연 목표를 충족하는 DNN 후보를 식별할 수 있음을 보여주며, 효율적인 하드웨어 인식 탐색을 시연합니다.
FPGA 특화 결과는 양자화 및 타일링/배치 전략으로 BRAM 사용을 실현 가능하게 하면서도 정확도 손실을 허용 가능한 범위 내로 관리합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.