Skip to main content
QUICK REVIEW

[論文レビュー] PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

Kye-Hyeon Kim, Sang‐Hoon Hong|arXiv (Cornell University)|Aug 29, 2016
Advanced Neural Network Applications参考文献 7被引用数 202
ひとこと要約

PVANET は C.ReLU、Inception、HyperNet に触発されたマルチスケール融合を用いた深くて薄い特徴抽出器を設計し、VOC で最先端の mAP を達成しつつ計算量を劇的に削減、リアルタイム検出を実現。

ABSTRACT

This paper presents how we can achieve the state-of-the-art accuracy in multi-category object detection task while minimizing the computational cost by adapting and combining recent technical innovations. Following the common pipeline of "CNN feature extraction + region proposal + RoI classification", we mainly redesign the feature extraction part, since region proposal part is not computationally expensive and classification part can be efficiently compressed with common techniques like truncated SVD. Our design principle is "less channels with more layers" and adoption of some building blocks including concatenated ReLU, Inception, and HyperNet. The designed network is deep and thin and trained with the help of batch normalization, residual connections, and learning rate scheduling based on plateau detection. We obtained solid results on well-known object detection benchmarks: 83.8% mAP (mean average precision) on VOC2007 and 82.5% mAP on VOC2012 (2nd place), while taking only 750ms/image on Intel i7-6700K CPU with a single core and 46ms/image on NVIDIA Titan X GPU. Theoretically, our network requires only 12.3% of the computational cost compared to ResNet-101, the winner on VOC2012.

研究の動機と目的

  • 精度を損なうことなく、物体検出における計算コストの低減を動機づける。
  • Faster R-CNN フレームワークに適した、軽量でありながら深い特徴抽出器を設計する。
  • 速度と性能のバランスを取るためのビルディングブロック(C.ReLU、Inception、HyperNet)を探求する。
  • VOC ベンチマークで競合的な mAP を示しつつ、リアルタイム性能を実証する。

提案手法

  • 領域提案と RoI 分類を効率的に保ちながら、特徴抽出ネットワークを再設計する。
  • C.ReLU を用いて早期段階のチャネルを半分にし、反転活性化と連結して特徴マップを二倍化する。
  • Inception モジュールを用いてマルチスケール受容野を捉える。
  • HyperNet 風のマルチスケール中間出力を最終特徴マップに融合し、RPN と分類器に用いる。
  • Batch normalization、残差接続、プラトーベースの学習率スケジューリングで訓練する。
  • RPN にはマルチスケール特徴のサブセットのみを入力し、RoI ベースの分類には full convf を使用する。

実験結果

リサーチクエスチョン

  • RQ1深くはあるが細いネットワークが、計算コストを大幅に削減した状態で最先端の検出精度を達成できるか?
  • RQ2C.ReLU、Inception ブロック、およびマルチスケール融合(HyperNetスタイル)は、物体検出ベンチマークに対して測定可能な改善をもたらすか?
  • RQ3PVANET を Faster R-CNN 構成で CPU と GPU 上でのリアルタイム性能と精度のトレードオフは何か?
  • RQ4PVANET の性能は VOC2007/2012 ベンチマークにおいて ResNet-101 や他のバックボーンとどう比較されるか?

主な発見

モデル提案リコール(%)mAP(%)時間(ms)FPS
PVANET30098.983.648.520.6
PVANET20098.383.542.223.7
PVANET10097.083.240.025.0
PVANET5094.782.126.837.3
PVANET+20098.383.846.121.7
  • PVANET は VOC2007 で 83.8% mAP、VOC2012 で 82.5% mAP(2 位)、ResNet-101 よりはるかに低い計算量で達成。
  • PVANET は 1065x640 入力で特徴抽出に 7.9 GMAC を使用し、ResNet-101 のコストの約 12.3% 。
  • CPU(単一コア i7-6700K)で 750 ms/image(1.3 FPS); Titan X GPU では 46 ms/image(21.7 FPS)。
  • RPN は convf の最初の 128 チャネルのみを提案に使用し、RCNN は RoI 処理に 512 チャネル convf を使用。
  • PVANET+( bounding-box voting を用いる)は VOC2007 で 83.8% mAP、VOC2012 で 82.5% mAP を達成し、いくつかのより重いバックボーンより効率的。
  • 完全結合層を切り詰めSVDで圧縮すると、実行時間が短縮され、mAP は控えめに低下(82.9%)する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。