[論文レビュー] YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS は MS-Block とヘテロジニアスカーネル選択プロトコルを導入し、リアルタイム検出のための多段階特徴表現を強化し、少ないパラメータ/FLOPs で高精度を達成し、他の YOLO モデルのプラグアンドプレイモジュールとして機能します。
We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.
研究の動機と目的
- リアルタイム検出器のための改良された多段階特徴表現の動機付け。
- ローカル(MS-Block)とグローバル(異なるカーネルサイズ)の視点を両立させて多段階特徴を豊かにするエンコーダの設計。
- Scratch から訓練した MS COCO で、最先端のリアルタイム検出器と比較して YOLO-MS を評価。
- 異質なカーネルサイズがスケール横断の検出性能を向上させつつ効率性を維持することを示す。
提案手法
- Res2Net に着想を得た階層的特徴融合戦略と大きなカーネル畳み込みを効率的に可能にする逆ボトルネックを備えた MS-Block を導入。
- エンコーダ段ごとにカーネルサイズを [3,5,7,9] に割り当てるヘテロジニアスカーネル選択(HKS)プロトコルを提案し、深層段の受容野を拡張しつつ浅層の効率を損なわない。
- 計算コストを抑えつつ大きなカーネルを可能にするよう、標準の3x3畳み込みを逆ボトルネックに置換。
- 多段階特徴を融合するためにダウンサンプリングを含む4段階のバックボーン、SPP ブロック、PAFPN ネックワークを活用。
- COCO 上での Scrath から訓練された、チャネル数とパラメータ数を増やした XS、S、フルの3つの YOLO-MS 変種を提供。
実験結果
リサーチクエスチョン
- RQ1MS-Block を備えた多段階エンコーダは、小・中・大物体のリアルタイム検出性能を改善しますか。
- RQ2エンコーダ段ごとに畳み込みカーネルを異種サイズに設定する HKS は、均一な小カーネルより精度と速度のトレードオフを改善しますか。
- RQ3MS-Block の深さ、チャンネル展開比、注意機構が性能と推論速度の両方に与える影響は何ですか。
- RQ4YOLO-MS は他の YOLO アーキテクチャへのプラグインモジュールとしてどれほど一般化しますか。
主な発見
- YOLO-MS-XS は約 4.5M パラメータと約 8.7 GFLOPs で COCO 上の AP が 43 を超えます。
- HKS は深層段の受容野を大きくしつつ、均一な小カーネルと比べて速度低下を最小限に抑えます。
- 適切なチャンネル展開と3分岐構造を備えた MS-Block は、結合されていない変種と比べて AP を約 1.2~1.6 ポイント改善します。
- PAFPN-MS と MS-Block の統合は、いくつかのベースラインに比べてパラメータと FLOPs を削減しつつ AP を向上させます。
- MS-Block を他の YOLO モデル(例: YOLOv6、YOLOv8)に適用すると、パラメータ/ FLOPs が少ないにもかかわらず AP が大幅に向上します。
- このアプローチは強力な速度-精度のトレードオフを支え、リアルタイム検出のための堅牢な多段階特徴学習を示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。