QUICK REVIEW

[論文レビュー] SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving

BoRui Wu, Alvin Wan|arXiv (Cornell University)|Dec 4, 2016

Advanced Neural Network Applications参考文献 5被引用数 92

ひとこと要約

SqueezeDet は、自動運転車におけるリアルタイムオブジェクト検出のための、完全畳み込み型で小型かつエネルギー効率の良いニューラルネットワークである。従来の領域提案ネットワークと全結合層の代わりに、統合された畳み込み型検出ヘッド（ConvDet）を採用することで、Faster R-CNN と VGG16 を用いた場合と比較して、57.2 FPS の推論速度、30.4倍小さいモデルサイズ、19.7倍速い速度、35.2倍低いエネルギー消費量を達成しながら、KITTI データセットで最先端の精度を維持した。

ABSTRACT

Object detection is a crucial task for autonomous driving. In addition to requiring high accuracy to ensure safety, object detection for autonomous driving also requires real-time inference speed to guarantee prompt vehicle control, as well as small model size and energy efficiency to enable embedded system deployment. In this work, we propose SqueezeDet, a fully convolutional neural network for object detection that aims to simultaneously satisfy all of the above constraints. In our network, we use convolutional layers not only to extract feature maps but also as the output layer to compute bounding boxes and class probabilities. The detection pipeline of our model only contains a single forward pass of a neural network, thus it is extremely fast. Our model is fully-convolutional, which leads to a small model size and better energy efficiency. While achieving the same accuracy as previous baselines, our model is 30.4x smaller, 19.7x faster, and consumes 35.2x lower energy. The code is open-sourced at \url{https://github.com/BichenWuUCB/squeezeDet}.

研究の動機と目的

自動運転の埋め込みシステムにおけるリアルタイム性、正確性、小型化、低消費電力性を満たすオブジェクト検出器のニーズに対応する。
従来の二段階検出器（例：Faster R-CNN）が抱えるモデルサイズ、推論速度、エネルギー消費の制限を克服する。
特徴抽出と検出を1回の順方向伝搬で統合する完全畳み込みアーキテクチャを設計し、高速性と効率性を実現する。
計算量とメモリ使用量を大幅に削減しながら、KITTI ベンチマークで高い精度を達成する。
自動運転車で使用される低消費電力の埋め込みプロセッサへのディープラーニングベースのオブジェクト検出の実用的導入を可能にする。

提案手法

特徴抽出のためのバックボーンネットワークとして SqueezeNet を用いた完全畳み込み型検出パイプラインを提案する。
領域提案ネットワークと全結合層の代わりに、特徴マップからバウンディングボックスとクラス確率を直接予測する専用の畳み込み層 ConvDet を導入する。
1回の順方向伝搬でエンドツーエンドのオブジェクト検出を実現し、領域提案の生成を不要にすることで遅延を低減する。
全結合層を深度分離畳み込みに置き換え、活性化のメモリフットプリントを削減することで、モデルサイズとエネルギー効率を最適化する。
Kitti データセットでの検出精度の向上を目的に、データ拡張とトランスファー学習を適用してモデルを微調整する。
入力解像度、アンカーカウント、アーキテクチャの組み合わせに関する精度、FLOPs、速度、メモリ使用量のトレードオフを評価するための広範な設計空間探索を実施する。

実験結果

リサーチクエスチョン

RQ1完全畳み込み型ネットワークは、自動運転のオブジェクト検出において、高精度を維持しながらリアルタイムの推論速度を達成できるか？
RQ2検出性能を損なわずに、モデルサイズとエネルギー消費をどの程度まで削減できるか？
RQ3全結合層と領域提案ネットワークを統合された畳み込み型検出ヘッド（ConvDet）に置き換えることで、速度、精度、効率性にどのような影響を与えるか？
RQ4入力解像度、アンカーカウント、アーキテクチャの組み合わせにおける、精度、FLOPs、メモリ使用量のトレードオフはどのようなものか？
RQ5SqueezeDet のような小型で効率的なモデルは、より大きな複雑なモデルと比較して、KITTI ベンチマークで最先端の性能を達成できるか？

主な発見

SqueezeDet は、入力解像度 1242x375 の条件下で TITAN X GPU 上で 57.2 FPS の推論速度を達成し、リアルタイム性能（30 FPS）をほぼ2倍上回った。
Faster R-CNN と VGG16 を用いたものと比較して、モデルサイズは 30.4 倍小さく、合計でわずか 7.9 MB にまで縮小された。また、Faster R-CNN と AlexNet を用いたものと比較しても 30 倍小さい。
1枚の画像あたりのエネルギー消費はたったの 1.4 J にまで抑えられ、Faster R-CNN よりも 84 倍少ない。エネルギー消費は 35.2 倍低減された。
KITTI データセットでは平均平均精度（mAP）が 80.4% を達成し、自転車乗り検出の3つの難易度レベルすべてで他のモデルを上回った。
入力画像の解像度を低くすることで推論速度は 92.5 FPS にまで上昇し、mAP は 3% 低下するが、速度と精度のトレードオフが有利であることが示された。
アンカー数を増やすと FLOPs やメモリフットプリントはわずかに増加するが、mAP は低下するため、検出品質の向上に限界が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。