[論文レビュー] Mamba YOLO: A Simple Baseline for Object Detection with State Space Model
Mamba-YOLOは状態空間モデルをYOLOに統合し、グローバル依存性を線形計算量で捉え、LSBlockとRGBlockを追加して局所特徴モデリングを強化し、COCO/VOCのサイズ問わず強力な結果を達成します。
Driven by the rapid development of deep learning technology, the YOLO series has set a new benchmark for real-time object detectors. Additionally, transformer-based structures have emerged as the most powerful solution in the field, greatly extending the model's receptive field and achieving significant performance improvements. However, this improvement comes at a cost as the quadratic complexity of the self-attentive mechanism increases the computational burden of the model. To address this problem, we introduce a simple yet effective baseline approach called Mamba YOLO. Our contributions are as follows: 1) We propose that the ODMamba backbone introduce a extbf{S}tate extbf{S}pace extbf{M}odel ( extbf{SSM}) with linear complexity to address the quadratic complexity of self-attention. Unlike the other Transformer-base and SSM-base method, ODMamba is simple to train without pretraining. 2) For real-time requirement, we designed the macro structure of ODMamba, determined the optimal stage ratio and scaling size. 3) We design the RG Block that employs a multi-branch structure to model the channel dimensions, which addresses the possible limitations of SSM in sequence modeling, such as insufficient receptive fields and weak image localization. This design captures localized image dependencies more accurately and significantly. Extensive experiments on the publicly available COCO benchmark dataset show that Mamba YOLO achieves state-of-the-art performance compared to previous methods. Specifically, a tiny version of Mamba YOLO achieves a extbf{7.5}\% improvement in mAP on a single 4090 GPU with an inference time of extbf{1.5} ms. The pytorch code is available at: \url{https://github.com/HZAI-ZJNU/Mamba-YOLO}
研究の動機と目的
- State Space Models (SSMs) を活用してYOLOのグローバルコンテキスト理解を向上させ、軽量でリアルタイムな検出器を目指す。
- SSMをバックボーンに組み込み、局所画像の局在性とチャネル特徴を扱う新しいブロック(ODSSBlock、LSBlock、RGBlock)を設計する。
- COCOとVOCデータセットでTiny/Base/Largeの複数スケールにわたる強力なベースラインとしてMamba-YOLOを確立する。
- SSMベースのバックボーンが従来のCNN/Transformerハイブリッドよりも速度と精度のトレードオフで優れていることを示す。
提案手法
- ODSSBlockコアをODMambaバックボーンに採用し、SS2Dベースのグローバルモデリングを局所畳み込みと融合する。
- 局所情報を深さ方向分離畳み込みと残差融合で捉えるLocal Spatial Block (LSBlock) を導入する。
- 残差接続と1x1畳み込みによるゲート付き集約を実装し、グローバルからローカルの特徴混合を効率化するResGated Block (RGBlock) を導入する。
- ネック部のC2f/標準的ダウンサンプリングをODSSBlockガイドのダウンサンプリングとVision Clue Mergeに置き換え、SS2Dガイダンスを豊かにする。
- 連続状態SSM (A,B) の離散化をZero-Order Holdで離散 Ā,B̄ に変換し、効率的なトレーニング/推論を実現する。
- COCOとVOCで評価してスケーラビリティと競争力を示すため、Tiny/Base/Largeのファミリを提供する。
実験結果
リサーチクエスチョン
- RQ1State Space ModelsをYOLOバックボーンに統合することで検出精度はリアルタイム推論を犠牲にせず改善されるか。
- RQ2LSBlockとRGBlockはSS2Dベースのアーキテクチャにおける局所画像モデリングのギャップを効果的に補完できるか。
- RQ3ODSSベースの設計はCOCOとVOCの異なるモデルスケール間で一貫した利得を提供するか。
主な発見
| 手法 | AP^val(%) | AP50(%) | AP75(%) | AP_S(%) | AP_M(%) | AP_L(%) | パラメータ | FLOPs |
|---|---|---|---|---|---|---|---|---|
| YOLOv5-N | 28.0 | 45.7 | 1.9 M | 4.5 G | ||||
| YOLOv5-S | 37.4 | 56.8 | 7.2 M | 16.5 G | ||||
| YOLOv5-M | 45.4 | 64.1 | 21.2 M | 49.0 G | ||||
| YOLOv5-L | 49.0 | 67.3 | 46.5 M | 109.1 G | ||||
| YOLOv6-3.0-N | 37.0 | 52.7 | 4.7 M | 4.7 G | ||||
| YOLOv6-3.0-S | 44.3 | 61.2 | 4.7 M | 45.3 G | ||||
| YOLOv6-3.0-M | 49.1 | 66.1 | 85.8 M | 85.8 G | ||||
| YOLOv6-3.0-L | 51.8 | 69.2 | 59.6 M | 150.7 G | ||||
| YOLOv7-Tiny | 37.4 | 55.2 | 37.3 | 15.7 | 38.0 | 53.4 | 6.2 M | 13.7 G |
| YOLOv7 | 51.2 | 69.7 | 55.9 | 31.8 | 55.5 | 65.0 | 36.9 M | 104.7 G |
| YOLOv7-X | 52.9 | 71.7 | 51.4 | 36.9 | 57.7 | 68.6 | 71.3 M | 189.9 G |
| YOLOv8-N | 37.3 | 52.6 | 40.6 | 18.8 | 41.0 | 53.5 | 3.2 M | 8.7 G |
| YOLOv8-S | 44.9 | 61.8 | 48.6 | 26.0 | 49.9 | 61.0 | 11.2 M | 28.6 G |
| YOLOv8-M | 50.2 | 67.3 | 54.8 | 32.3 | 55.9 | 66.5 | 25.9 M | 78.9 G |
| YOLOv8-L | 52.9 | 69.8 | 57.7 | 35.5 | 58.5 | 69.8 | 43.7 M | 165.2 G |
| Gold-YOLO-N | 39.6 | 55.7 | 19.7 | 44.1 | 57.0 | 5.6 M | 12.1 G | |
| Gold-YOLO-S | 45.4 | 62.5 | 25.3 | 50.2 | 62.6 | 21.5 M | 46.0 G | |
| Gold-YOLO-M | 49.8 | 67.0 | 32.3 | 55.3 | 66.3 | 41.3 M | 87.5 G | |
| Gold-YOLO-L | 51.8 | 68.9 | 34.1 | 57.4 | 68.2 | 75.1 M | 151.7 G | |
| Mamba YOLO-T | 45.4 | 62.3 | 49.1 | 25.2 | 50.4 | 62.9 | 6.1 M | 14.3 G |
| Mamba YOLO-B | 49.9 | 67.2 | 54.4 | 30.6 | 55.4 | 67.0 | 21.8 M | 49.7 G |
| Mamba YOLO-L | 52.1 | 69.8 | 56.5 | 34.1 | 57.3 | 68.1 | 57.6 M | 156.2 G |
- Mamba YOLO-T/LはCOCOバリデーションで競合的なAPを達成し、複数のベースラインと比較してパラメータ数とFLOPsを大幅に削減している。
- Mamba YOLO-Tは最良のTiny軽量モデルDAMO YOLO-T/YOLO MS-XSより3.4%のAPと2.0%のAP50の改善を示し、YOLOv8-Sよりはるかに少ないパラメータとFLOPsを持つ。
- Mamba YOLO-Lは同等の精度でGold-YOLO-LよりパラメータとFLOPsを削減しつつAP 52.1 / AP50 69.8 / AP75 56.5を達成。
- Mamba YOLOはCOCOでTiny/Base/Largeの各バリアントでFLOPs対精度およびパラメータ対精度のトレードオフにおいて有利で、いくつかの最先端検出器を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。