QUICK REVIEW

[論文レビュー] YOLOv4: Optimal Speed and Accuracy of Object Detection

Alexey Bochkovskiy, Chien-Yao Wang|arXiv (Cornell University)|Apr 23, 2020

Advanced Neural Network Applications参考文献 101被引用数 10,401

ひとこと要約

この論文はYOLOv4を提示する。YOLOv4は新機能（Bag of FreebiesとBag of Specials）と最適化されたバックボーン（CSPDarknet53）を組み合わせ、SPPとPANetネックを備えたリアルタイム物体検出器で、単一GPU上で実時間速度と最先端の精度を実現し、MS COCOで検証されている。

ABSTRACT

There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50) for the MS COCO dataset at a realtime speed of ~65 FPS on Tesla V100. Source code is at https://github.com/AlexeyAB/darknet

研究の動機と目的

従来のGPUで動作可能な高速リアルタイム物体検出器を開発する
最先端のトレーニングおよびアーキテクチャ機能が検出器の精度に与える影響を調査する
単一GPUのトレーニングと推論に最適化されたバックボーン/ネック/ヘッドの組み合わせを設計する
提案モデルを速度/精度の点で現代の検出器と比較し、比較検討する
SyncBNやマルチ-GPU設定なしで標準GPUでのトレーニングを再現可能な設定を提供する

提案手法

YOLOv4アーキテクチャとしてYOLOv3様のヘッドを備えたSPPとPANetネックを用いたCSPDarknet53バックボーンを採用する。
BoF（Bag of Freebies）にはMosaicデータ拡張、CutMix、ラベル平滑化、DropBlock、Mish活性化を含める。
BoS（Bag of Specials）としてMish活性化、CSP、MiWRCを用い、推論コストを最小限に抑えて性能を向上させる。
CIoU損失、CmBN、DropBlock、Mosaic/SATデータ拡張、多重アンカー訓練、コサインアニーリング、最適化されたハイパーパラメータを適用する。
ImageNetとMS COCO上でBoF/BoSの要素が分類器と検出器の性能に与える影響を広範なアブレーション研究で評価する。
Tesla V100上で約65 FPS、COCOで43.5% APを達成するリアルタイム性能を示す（608x608入力）

実験結果

リサーチクエスチョン

RQ1単一GPUでのリアルタイム検出に最適な速度と精度のトレードオフを実現するバックボーン・ネック・ヘッドの組み合わせはどれか？
RQ2BoFとBoSの改善は推論コストを増加させずに検出器の精度にどのような影響を与えるか？
RQ3修正された正規化とデータ拡張を用いた単一GPU訓練で最先端のCOCO結果を達成できるか？
RQ4YOLOv4は共通GPUでの速度と精度において現代の検出器とどう比較されるか？
RQ5高速で高精度な検 detectorの最適な訓練ハイパーパラメータとデータ拡張戦略は何か？

主な発見

Model	Backbone	Size	FPS	AP	AP50	AP75	AP_S	AP_M	AP_L
YOLOv4	CSPDarknet-53	416	38 (M)	41.2%	62.8%	44.3%	20.4%	44.4%	56.0%
YOLOv4	CSPDarknet-53	512	31 (M)	43.0%	64.9%	46.5%	24.3%	46.1%	55.2%
YOLOv4	CSPDarknet-53	608	23 (M)	43.5%	65.7%	47.3%	26.7%	46.7%	53.3%

YOLOv4はTesla V100上で約65 FPS、MS COCOに対して43.5% AP（65.7% AP50）を達成。
SPPとPANetネックを備えたCSPDarknet53バックボーンはCOCOの物体検出で他の代替よりも優れており、リアルタイム速度を実現する。
BoF手法（CutMix、Mosaic、ラベル平滑化、DropBlock、Mish活性化）は推論コストを増やすことなく分類器/検出器の性能を向上させる。
BoS成分（Mish、SPP、SAM、PAN、DIoU-NMS）は高いAPに貢献し、FPSは適度に抑えられる。CSPDarknet53ベースの検出器は強い結果を示す。
416、512、608の入力サイズでYOLOv4は段階的に高いAP値を得て、対応するFPSは以下のとおり：例：416: AP 41.2%、FPS 38; 512: AP 43.0%、FPS 31; 608: AP 43.5%、FPS 23。
モデルはSyncBNなしの単一GPUで動作し、再現性を広く高めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。