QUICK REVIEW

[論文レビュー] A Survey of Modern Object Detection Literature using Deep Learning

Karanbir Chahal, Kuntal Dey|arXiv (Cornell University)|Aug 22, 2018

Advanced Neural Network Applications参考文献 20被引用数 28

ひとこと要約

本調査は、2段階（Faster R-CNN）および1段階（SSD）の検出器に加え、モバイルデプロイ用の軽量アーキテクチャを焦点として、現代の深層学習ベースの物体検出手法について包括的な分析を提供する。RetinaNet が当時最も優れたモデルと特定され、収束性と効率性を向上させるために 1 サイクルポリシーおよび LARS といったトレーニング手法が評価されている。

ABSTRACT

Object detection is the identification of an object in the image along with its localisation and classification. It has wide spread applications and is a critical component for vision based software systems. This paper seeks to perform a rigorous survey of modern object detection algorithms that use deep learning. As part of the survey, the topics explored include various algorithms, quality metrics, speed/size trade offs and training methodologies. This paper focuses on the two types of object detection algorithms- the SSD class of single step detectors and the Faster R-CNN class of two step detectors. Techniques to construct detectors that are portable and fast on low powered devices are also addressed by exploring new lightweight convolutional base architectures. Ultimately, a rigorous review of the strengths and weaknesses of each detector leads us to the present state of the art.

研究の動機と目的

2018 年現在における、深層学習ベースの物体検出アルゴリズムについて、きめ細やかで最新の調査を提供すること。
現代の検出器における精度、速度、モデルサイズのトレードオフを分析すること。
低消費電力デバイスに適したポータブルで高速な物体検出器を作成するための技術を評価すること。
収束性とモデル性能を向上させる高度なトレーニング手法を調査すること。
敵対的ロバストネスや弱教師あり学習といった未解決の課題を特定すること。

提案手法

2段階（Faster R-CNN）および1段階（SSD）の検出器の2つの主要クラスを調査すること。
平均平均精度（mAP）や推論速度といった標準指標を用いて性能を評価すること。
モバイルデプロイに適した軽量畳み込みバックボーンアーキテクチャ（例：MobileNet、ShuffleNet）を分析すること。
1 サイクルポリシー、学習率ファインダー、およびレイヤーごとの適応的学習率スケーリング（LARS）を含む現代のトレーニング手法をレビューすること。
スティル・ウェイト・アveraging（SWA）やスーパーコンバージェンスといった技術を用いた、より高速なトレーニングの評価。
線形バッチサイズスケーリングと適応的学習率を用いた分散トレーニング戦略の評価。

実験結果

リサーチクエスチョン

RQ12段階検出器と1段階検出器の間で、主なアーキテクチャ的およびトレーニング的差異は何か？
RQ2現代の軽量ネットワークは、モバイルおよびエッジデバイスで効率的な物体検出をどのように可能にするか？
RQ3物体検出において、収束速度とモデル精度を顕著に向上させるトレーニング手法は何か？
RQ4mAP および推論速度の観点から、物体検出器はどれほど人間水準の性能に達しているか？
RQ5敵対的例に対するロバストネスおよび弱教師あり学習に関する未解決の課題は何か？

主な発見

現代の物体検出器は、以前のモデルの 29 から mAP 43 まで向上しており、人間水準の性能に近づいていることが示された。
推論時間は著しく改善され、初期の深層学習検出器の 1 イメージあたり 47 秒から、30ms 未満まで短縮され、リアルタイム検出が可能になった。
本論文発表時における最良の性能を示したモデルは RetinaNet であり、1段階検出器の中で最先端の精度を達成した。
1 サイクルポリシーおよび LARS トレーニング手法は、特に分散環境において、トレーニング効率性と収束速度を顕著に向上させた。
LARS および線形バッチサイズスケーリングを用いた分散トレーニングにより、ImageNet のトレーニング時間が最短で 4 分まで短縮された。
量子化とニューラルアーキテクチャサーチ（NAS）は、モデルサイズと推論時間を削減する上で有望であるが、NAS は計算コストが依然として高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。