QUICK REVIEW

[論文レビュー] Object Detection in 20 Years: A Survey

Zhengxia Zou, Chen, Keyan|arXiv (Cornell University)|May 13, 2019

Advanced Neural Network Applications参考文献 396被引用数 560

ひとこと要約

総括的なレビューで、伝統的な手作り特徴から深層学習への物体検出の進化を辿り、マイルストーン検出器、データセット、指標、構成要素、速度向上技術、2022年までの最先端手法を詳述する。

ABSTRACT

Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Over the past two decades, we have seen a rapid technological evolution of object detection and its profound impact on the entire computer vision field. If we consider today's object detection technique as a revolution driven by deep learning, then back in the 1990s, we would see the ingenious thinking and long-term perspective design of early computer vision. This paper extensively reviews this fast-moving research field in the light of technical evolution, spanning over a quarter-century's time (from the 1990s to 2022). A number of topics have been covered in this paper, including the milestone detectors in history, detection datasets, metrics, fundamental building blocks of the detection system, speed-up techniques, and the recent state-of-the-art detection methods.

研究の動機と目的

伝統的な方法から深層学習ベースの方法へと、物体検出の歴史的な進化を概説する。
マイルストーン検出器とその核心的アイデア（特徴、提案、エンドツーエンド網）を要約する。
検出の進展を形づくったデータセットと評価指標を分析する。
実用的な検 detectors を可能にする速度向上技術とコアとなるアーキテクチャ構成要素を検討する。

提案手法

VJ、HOG、DPM、RCNNファミリー、YOLO/SSD、RetinaNet、DETR など、マイルストーン検出器とそれらの技術革新の総覧。
データセット（VOC、ILSVRC/ImageNet、MS-COCO、Open Images）の比較と、IoU閾値、MS-COCO AP などの進化する評価指標。
多段階検出、文脈の活用、提案ベース対アンカーフリーのアプローチ、損失関数についての議論。
速度向上技術とエンドツーエンド訓練の進展の総合。

実験結果

リサーチクエスチョン

RQ12014年以前から2014年以降に至るまで、物体検出を形作った主要な歴史上のマイルストーンは何か？
RQ2データセットと評価指標は、検出器間の進展と公平な比較をどのように促進してきたか？
RQ3実時間またはほぼ実時間の検出を可能にした、精度を犠牲にしないアーキテクチャとトレーニングの革新とは何か？

主な発見

2つの主要な時期が浮かび上がった。2014年以前は伝統的検出器、2014年以降は深層学習ベースの検出器。
R-CNN時代は領域提案とCNNベースの特徴を導入し、続く Fast R-CNN と Faster R-CNN はエンドツーエンド訓練と Region Proposal Networks (RPN) によるほぼリアルタイム性能を実現した。
FPN（Feature Pyramid Networks）は、全スケールで意味的マップを構築することで効果的なマルチスケール検出を可能にし、Faster R-CNNとともにCOCOの結果を向上させた。
ワンステージ検出器（YOLO、SSD）は高い速度を達成し、 focal loss（RetinaNet）はクラス不均衡を解消して、速度を高めつつ競争力のある精度を実現した。
TransformerベースのDETRはアンカーボックスなしのエンドツーエンドの集合予測を導入し、Deformable DETR が強力な MS-COCO 結果を達成（例: COCOで 71.9% mAP）。
MS-COCO と Open Images は現状の標準ベンチマークとして強調され、指標は固定 IoU閾値から局所化精度のための多閾値 COCO AP へと進化している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。