Skip to main content
QUICK REVIEW

[論文レビュー] Scaled-YOLOv4: Scaling Cross Stage Partial Network

Chien-Yao Wang, Alexey Bochkovskiy|arXiv (Cornell University)|Nov 16, 2020
Advanced Neural Network Applications参考文献 46被引用数 129
ひとこと要約

本論文は scaled-YOLOv4 を提案します。これは CSP ベースのスケーリングフレームワークで、YOLOv4 を深さ、幅、解像度、構造に across して成長させたり縮小させたりすることで、さまざまなデバイス上でリアルタイム速度を保ちつつ最先端の精度を実現します。YOLOv4-large は COCO で 55.5% AP、約 16 FPS を達成し、YOLOv4-tiny は FP16 TensorRT で RTX 2080Ti 上で約 1774 FPS を達成します。

ABSTRACT

We show that the YOLOv4 object detection neural network based on the CSP approach, scales both up and down and is applicable to small and large networks while maintaining optimal speed and accuracy. We propose a network scaling approach that modifies not only the depth, width, resolution, but also structure of the network. YOLOv4-large model achieves state-of-the-art results: 55.5% AP (73.4% AP50) for the MS COCO dataset at a speed of ~16 FPS on Tesla V100, while with the test time augmentation, YOLOv4-large achieves 56.0% AP (73.3 AP50). To the best of our knowledge, this is currently the highest accuracy on the COCO dataset among any published work. The YOLOv4-tiny model achieves 22.0% AP (42.0% AP50) at a speed of 443 FPS on RTX 2080Ti, while by using TensorRT, batch size = 4 and FP16-precision the YOLOv4-tiny achieves 1774 FPS.

研究の動機と目的

  • 計算資源プラットフォームの幅広い範囲で高い精度を維持するスケーラブルな物体検出器を動機づける。
  • YOLOv4 を CSP ベースのスケーリングで拡張し、小型(tiny)および大型(P5/P6/P7)バリアントを生成する。
  • 入力サイズ、深さ、幅、ネットワーク構造の principled なスケーリングを通じて速度と精度のバランスを取る。

提案手法

  • YOLOv4 を再設計して速度-精度のトレードオフを最適化するための YOLOv4-CSP を開発する。
  • 大規模モデル向けの入力サイズ、#stages、深さ、幅のスケーリングガイドラインと、tiny モデル向けのチャネル/構造調整を確立する。
  • tiny モデルの MACs とメモリ帯域を削減するために CSPOSANet と PCB ベースのチャネル分割を導入する。
  • 大規模モデルでは入力サイズとネットワーク深さに対して複合スケーリングを適用し、リアルタイム制約の下で幅のスケーリングを行う。
  • Scaled モデルを ImageNet pretraining なしで SGD とカスタムデータ拡張を用いてゼロから訓練し、COCO 指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1CSP ベースのスケーリングをどのように小型と大型の YOLOv4 バリアントに体系的に適用して、さまざまなハードウェア上で速度と精度を最大化できるか。
  • RQ2物体検出のためにモデルを拡大縮小する際の上限・下限と重要な要因は何か。
  • RQ3CSP-化が YOLOv4 バリアント全体のパラメータ数、FLOPs、スループット、AP にどのように影響するか。
  • RQ4Scaled-YOLOv4 は埋め込み型および高性能 GPU 上でリアルタイム推論を維持しつつ、COCO の最先端結果を達成できるか。

主な発見

  • YOLOv4-large は Tesla V100 上で ~16 FPS、55.5% AP (73.4% AP50) を達成; TTA 使用時は 56.0% AP。
  • YOLOv4-tiny は RTX 2080Ti 上で ~443 FPS、22.0% AP (42.0% AP50) を達成; バッチ 4 の TensorRT FP16 で 1774 FPS。
  • Scaled-YOLOv4 バリアントは速度と精度のトレードオフに対してパレート最適であり、CSP 化はパラメータ数と FLOPs を削減しつつ AP を改善する。
  • YOLOv4-tiny は CSPOSANet と PCB 設計を使用して低計算で競争力のある AP を提供し、組込み GPU でのリアルタイム検出を実現する。
  • Test-time augmentation は大規模モデルの AP を僅かだが向上させる(例: +0.5–1.1 ポイント)。
  • Scaled-YOLOv4-tiny と scaled-YOLOv4-large は、対応する精度レベルで EfficientDet や他の検出器と比較して競争力のある速度を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。