Skip to main content
QUICK REVIEW

[論文レビュー] YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications

Chuyi Li, Lulu Li|arXiv (Cornell University)|Sep 7, 2022
Advanced Neural Network Applications被引用数 1,733
ひとこと要約

YOLOv6は、産業用途に合わせた実装可能な単段検出器のファミリを提示し、再參照可能ブロックを備えたバックボーン/ネック、デカップリングヘッド、TALラベル割り当て、高度な損失関数、自蒸留、量子化戦略を組み合わせることで、複数モデルスケールにおける速度–精度の最適なトレードオフを実現します。

ABSTRACT

For years, the YOLO series has been the de facto industry-level standard for efficient object detection. The YOLO community has prospered overwhelmingly to enrich its use in a multitude of hardware platforms and abundant scenarios. In this technical report, we strive to push its limits to the next level, stepping forward with an unwavering mindset for industry application. Considering the diverse requirements for speed and accuracy in the real environment, we extensively examine the up-to-date object detection advancements either from industry or academia. Specifically, we heavily assimilate ideas from recent network design, training strategies, testing techniques, quantization, and optimization methods. On top of this, we integrate our thoughts and practice to build a suite of deployment-ready networks at various scales to accommodate diversified use cases. With the generous permission of YOLO authors, we name it YOLOv6. We also express our warm welcome to users and contributors for further enhancement. For a glimpse of performance, our YOLOv6-N hits 35.9% AP on the COCO dataset at a throughput of 1234 FPS on an NVIDIA Tesla T4 GPU. YOLOv6-S strikes 43.5% AP at 495 FPS, outperforming other mainstream detectors at the same scale~(YOLOv5-S, YOLOX-S, and PPYOLOE-S). Our quantized version of YOLOv6-S even brings a new state-of-the-art 43.3% AP at 869 FPS. Furthermore, YOLOv6-M/L also achieves better accuracy performance (i.e., 49.5%/52.3%) than other detectors with a similar inference speed. We carefully conducted experiments to validate the effectiveness of each component. Our code is made available at https://github.com/meituan/YOLOv6.

研究の動機と目的

  • 産業向けのYOLOファミリの実行環境での速度と精度のバランスに焦点を当てた継続設計を動機づける。
  • 一般的なハードウェア上でスループットを最大化するため、N/S/M/Lのスケーラブルなネットワークを再參照可能ブロックと効率的なネック/ヘッドを活用して開発する。
  • 高度な訓練戦略(自己蒸留、ラベル割り当てTAL、特殊な損失関数)と、量子化(RepOptimizer、チャネルごとの蒸留を用いたQAT)を組み込み、実世界の性能を改善する。
  • COCO上でYOLOv6を現在の最先端検出器と比較評価し、複数サイズで競争力のある精度と高速推論を示す。

提案手法

  • 小型モデル向けEfficientRepバックボーンと、大型モデル向けCSPStackRepブロックを導入して速度と精度のバランスを取る。
  • Rep-PANネックとハイブリッドチャネル戦略を用いたEfficient Decoupled Headを採用して計算量を削減する。
  • デフォルトのラベル割り当てとしてTAL(Task Alignment Learning)を採用し、安定性と性能のためSimOTAを置換する。
  • 分類にはVariFocal Lossを、回帰にはablationに基づくSIoU/GIoUのバリエントを選択する;大きなモデルにはDFL/DFLv2を選択的に含める。
  • 業界向けのコツとして、長めのトレーニング、自己蒸留(教師 = 自身)、グレ border処理、ロード訓練エポックを取り入れる。
  • RepOptimizerベースの訓練を適用してPTQ対応の重みを得る;チャネルごとの蒸留を用いたQATとグラフ最適化を用いて、量子化対応のデプロイを実現する。

実験結果

リサーチクエスチョン

  • RQ1産業環境での速度と精度のバランスを考慮したモデルスケール(N, S, M, L)ごとの最適なバックボーンとネック設計は何か(単一路線 vs 複数分岐)?
  • RQ2ラベル割り当て戦略(ATSS、SimOTA、TAL など)がYOLOv6の訓練安定性と最終のmAPにどう影響するか?
  • RQ3どの分類と局所化の損失関数が、推論速度を保ちつつ精度を最大化するか?
  • RQ4デプロイメント指向の量子化戦略(RepOptimizer、チャネル-wise蒸留を用いたQAT)は、最小限の精度損失で最良の速度向上を生むのか?
  • RQ5COCO上でのYOLOv6バリアントの総合的な性能は、YOLOv5/YOLOX/PPYOLOE/YOLOv7と比較してAPと標準ハードウェア上のFPSの観点でどうか?

主な発見

モデル入力サイズAP値AP50値FPS(bs=1)FPS(bs=32)レイテンシパラメータ数FLOPs
YOLOv6-N64035.9%51.2%80212341.2 ms4.3 M11.1 G
YOLOv6-S64043.5%60.4%3584952.8 ms17.2 M44.2 G
YOLOv6-M64049.5%66.8%1792335.6 ms34.3 M82.2 G
YOLOv6-L64052.5%70.0%9812110.2 ms58.5 M144.0 G
YOLOv6-L-ReLU64051.7%69.2%1131498.8 ms58.5 M144.0 G
  • YOLOv6-NはTesla T4上で802 FPS(バッチサイズ=1)および1.2 msのレイテンシを示し、1234 FPS(バッチサイズ=32)で35.9% APを達成。
  • YOLOv6-SはT4上で495 FPS(バッチサイズ=32)で43.5% APを達成し、同等サイズのYOLOv5-SおよびYOLOX-Sを上回る。量子化済みYOLOv6-Sは869 FPSで43.3% APを達成。
  • YOLOv6-Mは233 FPS(バッチサイズ=32)で49.5% AP、5.6 msのレイテンシを達成し、同等速度の検出器を上回る。YOLOv6-Lは121 FPS(バッチサイズ=32)で52.5% AP、10.2 msのレイテンシ、144.0 G FLOPsを達成。
  • YOLOv6-L-ReLU系列は競争力のある精度/速度のトレードオフを提供;ReLUを採用したLモデルは51.7% APで149 FPS。
  • アブレーション全体を通じて、TALは一貫してSimOTAおよびATSSよりもラベル割り当てで優れている;VFLはFocal Lossに対して分類精度を小幅に改善;SIoU/CIoUを回帰損失として採用するとモデルバリアントごとに最良の結果が得られる。
  • 量子化アプローチ(RepOptimizer駆動のPTQやチャネル-wise蒸留を組み込んだQAT)は、Tesla T4のようなハードウェア上で大幅な速度向上と実装向けの精度を両立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。