[論文レビュー] SkyNet: a Hardware-Efficient Method for Object Detection and Tracking on Embedded Systems
SkyNetは埋め込みオブジェクト検出と追跡のためのボトムアップ型、ハードウェア意識型DNN設計を導入し、TX2 GPUとUltra96 FPGAで最先端の効率と精度を達成し、SiamRPN++や SiamMask のようなトラッカーを強化します。
Object detection and tracking are challenging tasks for resource-constrained embedded systems. While these tasks are among the most compute-intensive tasks from the artificial intelligence domain, they are only allowed to use limited computation and memory resources on embedded devices. In the meanwhile, such resource-constrained implementations are often required to satisfy additional demanding requirements such as real-time response, high-throughput performance, and reliable inference accuracy. To overcome these challenges, we propose SkyNet, a hardware-efficient neural network to deliver the state-of-the-art detection accuracy and speed for embedded systems. Instead of following the common top-down flow for compact DNN (Deep Neural Network) design, SkyNet provides a bottom-up DNN design approach with comprehensive understanding of the hardware constraints at the very beginning to deliver hardware-efficient DNNs. The effectiveness of SkyNet is demonstrated by winning the competitive System Design Contest for low power object detection in the 56th IEEE/ACM Design Automation Conference (DAC-SDC), where our SkyNet significantly outperforms all other 100+ competitors: it delivers 0.731 Intersection over Union (IoU) and 67.33 frames per second (FPS) on a TX2 embedded GPU; and 0.716 IoU and 25.05 FPS on an Ultra96 embedded FPGA. The evaluation of SkyNet is also extended to GOT-10K, a recent large-scale high-diversity benchmark for generic object tracking in the wild. For state-of-the-art object trackers SiamRPN++ and SiamMask, where ResNet-50 is employed as the backbone, implementations using our SkyNet as the backbone DNN are 1.60X and 1.73X faster with better or similar accuracy when running on a 1080Ti GPU, and 37.20X smaller in terms of parameter size for significantly better memory and storage footprint.
研究の動機と目的
- リソース制約のある組み込み機器でリアルタイムかつ高精度な物体検出と追跡を提供する挑戦に対処する。
- ハードウェアの制約を最初から予測するボトムアップでハードウェア意識型DNN設計を提案する。
- SkyNetを組み込みGPUおよびFPGAプラットフォームで実証し、競争力のある精度とエネルギー効率を示す。
- SkyNetをバックボーンとして拡張し、最先端トラッカーの速度とメモリフットプリントを改善する。
提案手法
- DNNの基本構成要素としてハードウェア意識型Bundlesを定義し、ターゲットハードウェア上で評価して現実的な遅延とリソース使用を把握する。
- Stage 1: Bundle選択と評価、精度とハードウェアコストのバランスが取れた有望なコンポーネントを特定する。
- Stage 2: Accuracyと latency targetsの下でネットワーク構成を最適化するための group-based Particle Swarm Optimization (PSO) を用いたハードウェア意識型DNN探索。
- Stage 3: 少物体検出とハードウェア効率を向上させるためのfeature map bypass、再配置、ReLU6などの高度な機能を追加。
- SkyNetアーキテクチャを、BNとReLU6を伴う繰り返しDW-Conv3およびPW-Conv1ブロックから構築し、YOLO風の境界ボックス回帰ヘッドに適合させる。
- FPGAのための量子化とタイル化/バッチ処理戦略を用いて精度・メモリ・帯域幅のバランスを取る。
実験結果
リサーチクエスチョン
- RQ1ボトムアップでハードウェア意識型の設計アプローチは組込み検出器向けの従来のトップダウンDNN設計フローを上回れるか?
- RQ2ハードウェアのフィードバックをDNN探索プロセスに組み込み、embedded GPUとFPGAの遅延とリソース使用を最適化するにはどうすればよいか?
- RQ3特徴マップバイパスとReLU6のようなアーキテクチャ機能は、小物体検出とハードウェア効率の間でどのような最適なトレードオフをもたらすか?
- RQ4SkyNetをResNet-50と比較してSiamRPN++やSiamMaskのバックボーンとして物体追跡パイプラインでどのように性能を発揮するか?
- RQ5GOT-10K風のベンチマークでバックボーンをSkyNetに置換することで、速度とメモリフットプリントにどのような利得があるか?
主な発見
- SkyNetはTX2組込みGPUで0.731 IoUと67.33 FPS、Ultra96 FPGAで0.716 IoUと25.05 FPSをDAC-SDCで達成し、100社以上の競合を上回った。
- SkyNetバックボーンは1080Ti GPUでSiamRPN++を1.60x、SiamMaskを1.73xのスピードアップをもたらし、パラメータ数はより少なく(37.20x 小さい)
- アブレーションはReLU6を搭載したSkyNet CがDAC-SDCで最良の検証モデル(IoU 0.741)であり、SkyNetバックボーンはほぼIoU 0.73–0.74、ベースバックボーンのパラメータフットプリントは約0.44M程度。
- ボトムアップでハードウェア意識型PSOベース探索は、ソフトウェアの精度とハードウェア遅延ターゲットを満たすDNN候補を識別でき、ハードウェア意識的探索の効率を示す。
- FPGA固有の結果は、量子化とタイル化/バッチ処理戦略が適切なBRAM使用を可能にし、精度損失を許容範囲内に収める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。