[論文レビュー] YOLOX: Exceeding YOLO Series in 2021
YOLOX はデカップルドヘッドと SimOTA ダイナミックラベル割り当てを備えたアンカーフリー検出器を導入し、モデルサイズを問わず COCO AP で最先端を達成し、YOLOv3 や YOLOv5-L などの従来の YOLO 系統を凌ぎつつ、デプロイオプションを提供します。
In this report, we present some experienced improvements to YOLO series, forming a new high-performance detector -- YOLOX. We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. Further, we won the 1st Place on Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) using a single YOLOX-L model. We hope this report can provide useful experience for developers and researchers in practical scenes, and we also provide deploy versions with ONNX, TensorRT, NCNN, and Openvino supported. Source code is at https://github.com/Megvii-BaseDetection/YOLOX.
研究の動機と目的
- リアルタイムアプリケーション向けに速度と精度のバランスを取るため、YOLO 系列の改良を促進する。
- アンカーフリー検出、デカップルドヘッド設計、および高度なラベル割り当てを統合して、モデルスケール全体で COCO の性能を向上させる。
- 現代の検出器と比較して強力な結果を示し、デプロイ可能な実装を提供する。
提案手法
- YOLOv3 ベースライン(YOLOv3-SPP)から始め、トレーニングのコツ(EMA、コサイン LR、IoU 損失、IoU-aware ブランチ)を適用する。
- 分類と回帰パスを分離する lite デカップルドヘッドに置換する。
- 強力なデータ拡張(Mosaic、MixUp)を導入し、モザイクを補完するため RandomResizedCrop を中止する。
- アンカーベースからアンカーフリー検出へ切り替え、予測を削減し速度と精度を向上させる。
- 正の割り当てに対して中心サンプリング(物体中心周囲の3x3 の正例)を採用する。
- 訓練のオーバーヘッドを抑えつつ正例マッチングを改善する、OT にインスパイアされたダイナミックな top-k ラベル割り当てである SimOTA を採用する。
- オプションとして、コア依存性なしのエンドツーエンド(NMS-free)バリアントを追加モジュールとして有効化できる。
実験結果
リサーチクエスチョン
- RQ1デカップルドヘッドを用いたアンカーフリー検出が YOLO 系検出器の COCO AP を改善するか。
- RQ2強力なデータ拡張(Mosaic、MixUp)はモデルサイズを越えて YOLOX の性能にどのような影響を与えるか。
- RQ3SimOTA ラベル割り当ては従来の戦略と比べて精度と訓練効率にどのような影響を及ぼすか。
- RQ4VOLOX モデルは COCO で既存の YOLO ベース検出器(例:YOLOv3-ultralytics、YOLOv5-L)を上回るか。
- RQ5エンドツーエンド訓練と標準的な NMS ベース推論の間のトレードオフは何か。
主な発見
- YOLOX-DarkNet53 (640x640) は SimOTA を使用して COCO で AP が 47.3% に達し、従来の YOLOv3 を 3.0% AP 上回る。
- デカップルドヘッドを採用すると、YOLOv3 ベースラインで AP が 38.5% から 39.6% に改善される。
- 強力な拡張(Mosaic + MixUp)を適用すると AP が 42.0% に上昇する。
- アンカーフリーへ切替えると予測を削減でき、中心周りの 3x3 正例を用いると AP は 45.0% に達する。
- SimOTA ラベル割り当ては AP を 47.3% へ押し上げ、ultralytics-YOLOv3 を 3.0% AP 上回る。
- エンドツーエンド(NMS-free)バリアントはオプションであり、標準セットアップと比べて速度/性能が低下する場合がある。
- YOLOX-L (640x640) は Tesla V100 上で 68.9 FPS、AP が 50.0% を達成し、YOLOv5-L を 1.8% AP 上回る。
- YOLOX-Nano (0.91M パラメータ、1.08 GFLOPs) は 25.3% AP を達成し、NanoDet を 1.8% AP 上回る。
- YOLOv5 における CSPNet の改変を含むバックボーン間の比較では、YOLOX のバリエーションは一貫して YOLOv5 の対応モデルよりおよそ 1-3% ポイントの AP 向上を示し、待機時間の変化は僅差。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。