[論文レビュー] Scalable Visual State Space Model with Fractal Scanning
FractalMambaを提案する、分形スキャンに基づく視覚状態空間モデルで、画像パッチを直列化し、分類・検出・セマンティックセグメンテーションのためのSSMを効率的にスケールさせ、線形スキャンの対比より性能を向上させる。
Foundational models have significantly advanced in natural language processing (NLP) and computer vision (CV), with the Transformer architecture becoming a standard backbone. However, the Transformer's quadratic complexity poses challenges for handling longer sequences and higher resolution images. To address this challenge, State Space Models (SSMs) like Mamba have emerged as efficient alternatives, initially matching Transformer performance in NLP tasks and later surpassing Vision Transformers (ViTs) in various CV tasks. To improve the performance of SSMs, one crucial aspect is effective serialization of image patches. Existing methods, relying on linear scanning curves, often fail to capture complex spatial relationships and produce repetitive patterns, leading to biases. To address these limitations, we propose using fractal scanning curves for patch serialization. Fractal curves maintain high spatial proximity and adapt to different image resolutions, avoiding redundancy and enhancing SSMs' ability to model complex patterns accurately. We validate our method in image classification, detection, and segmentation tasks, and the superior performance validates its effectiveness.
研究の動機と目的
- 長いシーケンスと高解像度画像に対するTransformerおよびViTバックボーンの非効率性を、状態空間モデル(SSMs)を活用して動機づけ、対処する。
- Fractal scanningを通じてSSMベースのビジョンバックボーンにおけるパッチ直列化を改善し、スケール間の空間関係を保持する。
- 簡単なシフト操作を用いてFractal scanningの局所的な隣接性・連続性の制約を緩和し、局所性を高める。
- FractalMambaの画像分類、物体検出、意味的セマンティックセグメンテーションにおける有効性を示す。
- FractalMambaを高解像度入力にスケールさせつつ、性能を維持または向上させられることを示す。
提案手法
- コア演算子としてSelective SSMを採用し、時変入力に応じたB、C、Deltaパラメータを可能にする。
- 2Dから1Dへの直列化を保つために fractal(Hilbert)スキャン曲線を導入し、空間局所性を保持し、画像解像度の変化に適応する。
- 直列化時の局所的隣接性と連続性を改善するために fractal曲線上のシフト操作を実装する。
- 直列化パッチのシーケンスモデリングには、離散化SSM(ゼロ階ホールド由来)のグローバル畳み込みカーネルを使用する。
- FractalMambaをImageNet-1K、COCO(物体検出/セグメンテーション)、ADE20K(意味的セグメンテーション)で評価する。
- CNN-, ViT-, および他のSSMベースのバックボーン(例: VMamba、LocalMamba、PlainMamba)と比較する。
実験結果
リサーチクエスチョン
- RQ1Fractal scanning曲線は標準の線形スキャンと比較して、SSMベースのビジョンバックボーンにおける空間関係をより良く1D系列に保持できるか?
- RQ2シフト操作はFractal serializationにおける局所的隣接性と連続性を改善し、下流の性能を向上させるか?
- RQ3FractalMambaは画像分類、物体検出、意味的セグメンテーションで、特に高解像度入力時にCNN-, ViT-, および他のSSMベースモデルと比較してどのような性能を示すか?
- RQ4FractalMambaはFLOPsが線形に増加する中で大規模な入力解像度に対してスケーラブルかつ精度を維持できるか?
- RQ5 fractal scanningが解像度とタスク間のロバスト性に与える影響は?
主な発見
| Model | Image Size | #Param. | FLOPs | ImageNet Top-1 Acc. |
|---|---|---|---|---|
| FractalMamba-T | 224 | 31M | 4.9G | 82.7 |
| FractalMamba-T (Shifting) | 224 | 31M | 4.9G | 82.9 |
| FractalMamba-T | 384 | 31M | 4.9G | 82.4 |
| FractalMamba-T | 512 | 31M | 4.9G | 81.2 |
| FractalMamba-T | 640 | 31M | 4.9G | 80.2 |
| FractalMamba-T | 768 | 31M | 4.9G | 77.9 |
| FractalMamba-T | 1024 | 31M | 101.5G | 69.6 |
- FractalMamba-TはImageNet-1Kの224^2でトップ1が82.7%、パラメータ数が31M、FLOPsが4.9Gで、同等FLOPsのいくつかのベースラインを上回る。
- fractal曲線へのシフト操作の導入により、解像度を問わず分類精度が改善(例: 224: 82.9, 384: 82.7, 512: 81.6, 640: 80.5)。
- COCOでは、FractalMamba-Tの12エポック微調整でAPb 47.8、APm 42.9を達成し、Swin-T、ConvNeXt-T、VMamba-Tなどと比較して複数指標で優位。
- ADE20KではFractalMamba-Tの意味的セグメンテーションmIoUが48.9(512クロップ、単一スケール)およびマルチスケール検出で49.8を達成し、ResNet-50、DeiT-S+/MLN、Swin-T、ConvNeXt-Tを上回る。
- FractalMambaは入力解像度が1024^2へ増加しても線形にFLOPsが増える一方で精度を維持または上回るなど、強いスケーラビリティを示す。
- アブレーションにより、 fractalシフトは表現忠実度とパフォーマンスをタスク全体で一貫して向上させることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。