[論文レビュー] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7は、推論コストを増やすことなくリアルタイム物体検出の精度を改善するtrainable bag-of-freebiesを導入し、MS COCOからのゼロからの学習で最先端の速度-精度のトレードオフを達成する。
YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.
研究の動機と目的
- リアルタイム物体検 detectorsの精度を向上させつつ推論コストを上げないことを動機づける。
- 性能を高めるtrainable training-time enhancements(freebies)を提案する。
- マルチヘッド訓練で生じる再パラメータ化と動的ラベル割り当ての問題に対処する。
- 結合ベースアーキテクチャの拡張スケーリングと複合スケーリングを導入する。
- 先行手法と比較してCOCO上での速度-精度の向上を実証する。
提案手法
- 計画的な再パラメータ化畳み込み(RepConvN)を含むtrainable bag-of-freebiesを提案する。
- auxiliaryおよびlead headsに対してcoarse-to-fine lead guided label assignmentを導入し、深層監視を行う。
- lead head guided soft labelsを用いたauxiliaryおよびlead headsによる深層監視を適用する。
- 勾配パスを変更せずに学習を改善するため、group convolutionと特徴マップシャッフルを用いたextended-ELAN(E-ELAN)を開発する。
- 結合ベースアーキテクチャの深さと幅のバランスを取るための複合モデルスケーリングを実装する。
- MS COCO上で外部事前学習なしにYOLOv7モデルをゼロから訓練する。
実験結果
リサーチクエスチョン
- RQ1trainable training-time tricks(freebies)は推論コストを増やさずリアルタイム検出器の精度を向上させ得るか。
- RQ2残差/結合ブロック全体で勾配流を保つように再パラメータ化を計画するにはどうすればよいか。
- RQ3複数のヘッド/出力を同時に訓練する場合、動的ラベル割り当てをどう扱うべきか。
- RQ4結合ベースの検出器で精度と効率を最大化する効果的な複合スケーリング戦略は何か。
- RQ5COCOでゼロから訓練するだけで、デバイス設定を超えた最先端の性能を達成できるか。
主な発見
| Model | #Param. | FLOPs | Size | FPS | AP test / AP val | AP val @50 | AP val @75 | AP val S | AP val M | AP val L |
|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv7-E6E | 151.7M | 843.2G | 1280 | 36 | 56.8% / 56.8% | 74.4% | 62.1% | 39.3% | 60.5% | 69.0% |
| YOLOv7-D6 | 154.7M | 806.8G | 1280 | 44 | 56.6% / 56.3% | 74.0% | 61.8% | 38.8% | 60.1% | 69.5% |
| YOLOv7-E6 | 97.2M | 515.2G | 1280 | 56 | 56.0% / 55.9% | 73.5% | 61.2% | 38.0% | 59.9% | 68.4% |
| YOLOv7 | 36.9M | 104.7G | 640 | 161 | 51.4% / 51.2% | 69.7% | 55.9% | 31.8% | 55.5% | 65.0% |
| YOLOv7-X | 71.3M | 189.9G | 640 | 114 | 53.1% / 52.9% | 71.2% | 57.8% | 33.8% | 57.1% | 67.4% |
- YOLOv7は5–160 FPSの範囲でリアルタイム検出器のうち最良の速度-精度トレードオフを達成する。
- YOLOv7-E6Eは36 FPS(V100)で56.8% APを達成し、速度と精度の面でトランスフォーマーベースと畳み込みベースのベースラインを上回る。
- 強力なベースライン(例:YOLOR、YOLOv4、YOLOv4-tiny、YOLOR-D6)と比較して、YOLOv7のバリエーションは多くの設定でパラメータとFLOPsを削減しつつAPを改善。
- 提案された複合スケーリング戦略(ブロック内の深さと遷移時の幅の協調的変更)は、狭いベースラインより最大約1.5ポイントのAP向上をもたらす。
- RepConvNベースの再パラメータ化とコース→ファインの監視を伴うリードガイド付きラベル割り当ては、標準の対応物より測定可能な利得を提供する。
- YOLOv7-tinyおよびYOLOv7のバリエーションは、前例のあるリアルタイム検出器と比較して、はるかに低いパラメータ数と計算量で強い精度向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。