[論文レビュー] Object Detection in 20 Years: A Survey
総括的なレビューで、伝統的な手作り特徴から深層学習への物体検出の進化を辿り、マイルストーン検出器、データセット、指標、構成要素、速度向上技術、2022年までの最先端手法を詳述する。
Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Over the past two decades, we have seen a rapid technological evolution of object detection and its profound impact on the entire computer vision field. If we consider today's object detection technique as a revolution driven by deep learning, then back in the 1990s, we would see the ingenious thinking and long-term perspective design of early computer vision. This paper extensively reviews this fast-moving research field in the light of technical evolution, spanning over a quarter-century's time (from the 1990s to 2022). A number of topics have been covered in this paper, including the milestone detectors in history, detection datasets, metrics, fundamental building blocks of the detection system, speed-up techniques, and the recent state-of-the-art detection methods.
研究の動機と目的
- 伝統的な方法から深層学習ベースの方法へと、物体検出の歴史的な進化を概説する。
- マイルストーン検出器とその核心的アイデア(特徴、提案、エンドツーエンド網)を要約する。
- 検出の進展を形づくったデータセットと評価指標を分析する。
- 実用的な検 detectors を可能にする速度向上技術とコアとなるアーキテクチャ構成要素を検討する。
提案手法
- VJ、HOG、DPM、RCNNファミリー、YOLO/SSD、RetinaNet、DETR など、マイルストーン検出器とそれらの技術革新の総覧。
- データセット(VOC、ILSVRC/ImageNet、MS-COCO、Open Images)の比較と、IoU閾値、MS-COCO AP などの進化する評価指標。
- 多段階検出、文脈の活用、提案ベース対アンカーフリーのアプローチ、損失関数についての議論。
- 速度向上技術とエンドツーエンド訓練の進展の総合。
実験結果
リサーチクエスチョン
- RQ12014年以前から2014年以降に至るまで、物体検出を形作った主要な歴史上のマイルストーンは何か?
- RQ2データセットと評価指標は、検出器間の進展と公平な比較をどのように促進してきたか?
- RQ3実時間またはほぼ実時間の検出を可能にした、精度を犠牲にしないアーキテクチャとトレーニングの革新とは何か?
主な発見
- 2つの主要な時期が浮かび上がった。2014年以前は伝統的検出器、2014年以降は深層学習ベースの検出器。
- R-CNN時代は領域提案とCNNベースの特徴を導入し、続く Fast R-CNN と Faster R-CNN はエンドツーエンド訓練と Region Proposal Networks (RPN) によるほぼリアルタイム性能を実現した。
- FPN(Feature Pyramid Networks)は、全スケールで意味的マップを構築することで効果的なマルチスケール検出を可能にし、Faster R-CNNとともにCOCOの結果を向上させた。
- ワンステージ検出器(YOLO、SSD)は高い速度を達成し、 focal loss(RetinaNet)はクラス不均衡を解消して、速度を高めつつ競争力のある精度を実現した。
- TransformerベースのDETRはアンカーボックスなしのエンドツーエンドの集合予測を導入し、Deformable DETR が強力な MS-COCO 結果を達成(例: COCOで 71.9% mAP)。
- MS-COCO と Open Images は現状の標準ベンチマークとして強調され、指標は固定 IoU閾値から局所化精度のための多閾値 COCO AP へと進化している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。