[論文レビュー] SF-Mamba: Rethinking State Space Model for Vision
SF-Mamba は、補助トークンのスワッピングとバッチ折り畳みを導入し、周期的な状態リセットを用いて視覚的 Mamba の一方向走査を効率化し、分類・検出・セマンティック/インスタンス分割タスクの精度とスループットを改善します。
The realm of Mamba for vision has been advanced in recent years to strike for the alternatives of Vision Transformers (ViTs) that suffer from the quadratic complexity. While the recurrent scanning mechanism of Mamba offers computational efficiency, it inherently limits non-causal interactions between image patches. Prior works have attempted to address this limitation through various multi-scan strategies; however, these approaches suffer from inefficiencies due to suboptimal scan designs and frequent data rearrangement. Moreover, Mamba exhibits relatively slow computational speed under short token lengths, commonly used in visual tasks. In pursuit of a truly efficient vision encoder, we rethink the scan operation for vision and the computational efficiency of Mamba. To this end, we propose SF-Mamba, a novel visual Mamba with two key proposals: auxiliary patch swapping for encoding bidirectional information flow under an unidirectional scan and batch folding with periodic state reset for advanced GPU parallelism. Extensive experiments on image classification, object detection, and instance and semantic segmentation consistently demonstrate that our proposed SF-Mamba significantly outperforms state-of-the-art baselines while improving throughput across different model sizes. We will release the source code after publication.
研究の動機と目的
- 現行の視覚的 Mamba モデルの因果性と速度の制限に対処して、効率的な視覚エンコーダを動機付ける。
- 将来から過去への情報フローを可能にする最小限のオーバーヘッドで一方向スキャンを開発する。
- バッチ折り畳みと周期的な状態リセットを通じて短いシーケンスの視覚タスクにおける GPU の並列性を向上させる。
- SF-Mamba の有効性を画像分類、物体検出、セマンティック/インスタンス分割全般で示す。
提案手法
- 双方向の情報フローを一方向スキャン内で可能にする補助パッチスワッピングを提案する。これには二つの補助トークンと軽量でパラメーターフリーなスワップ操作を用いる。
- GPU 利用率を最大化するため、T ステップごとの制御された状態リセットで batch と sequence の次元を統合しつつ独立性を維持するバッチ折り畳みを導入する。
- 一方向スキャンと選択的 SSM ブロックを備えた MambaVision ハイブリッドアーキテクチャを活用し、未来から過去へのルーティングのための補助トークンを強化する。
- 正確性を維持するための境界処理をサポートする深さ方向 1D 畳み込みの実装を提供する。
- さまざまなバッチサイズとシーケンス長を最適化するために LUT を介して適応的な B1/B 比率を事前計算する。
- 分類のために ImageNet-1K、セグメンテーションのために ADE20K と UperNet、加えて Appendix に記載のオブジェクト検出ワークフローを評価する。

実験結果
リサーチクエスチョン
- RQ1補助トークンスワッピングによって一方向 Mamba を双方向スキャンと同等の表現力にできるか。
- RQ2周期的な状態リセットを伴うバッチ折り畳みは短いシーケンスで SF-Mamba の速度を substantial に向上させつつ精度を犠牲にしないか。
- RQ3補助トークンは未来から過去への情報フローと全体的な表現品質にどのような影響を及ぼすか。
- RQ4SF-Mamba のスループットと精度のトレードオフは最先端の CNN/Transformer/ハイブリッドバックボーンと比較してどうか。
- RQ5分類に対する性能と比較して分割・検出タスクで SF-Mamba はどう機能するか。
主な発見
- SF-Mamba はモデル規模(T/S/B)に対して最先端のベースラインと比較して優れた精度–スループットのトレードオフを実現する。
- SSM カーネルのバッチ折り畳みにより短いシーケンスで速度向上が 110% ~ 180% 見られる。
- アブレーションにより補助トークンスワッピングが IN1K および ADE20K の性能を向上させ、速度への影響は最小である。
- _uni-scan 市場と比較して、補助トークンスワッピングは双方向の情報フローとより良い精度を提供する。
- さまざまな bi-scan デザインと比較して、SF-Mamba の uni-scan with swapping は低いオーバーヘッドで競争力のある精度を達成する。
- SF-Mamba-S および SF-Mamba-T バリアントは Pareto 効率の良い領域内で分類と ADE20K 分割タスクで強力な性能を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。