QUICK REVIEW

[论文解读] Scalable Visual State Space Model with Fractal Scanning

Lv Tang, Hao-Ke Xiao|arXiv (Cornell University)|May 23, 2024

Image Retrieval and Classification Techniques被引用 5

一句话总结

提出 FractalMamba，一种基于 fractal 扫描的可视化状态空间模型，用于对图像补丁进行序列化，并在分类、检测和分割中高效扩展 SSM，性能优于线性扫描的对应方法。

ABSTRACT

Foundational models have significantly advanced in natural language processing (NLP) and computer vision (CV), with the Transformer architecture becoming a standard backbone. However, the Transformer's quadratic complexity poses challenges for handling longer sequences and higher resolution images. To address this challenge, State Space Models (SSMs) like Mamba have emerged as efficient alternatives, initially matching Transformer performance in NLP tasks and later surpassing Vision Transformers (ViTs) in various CV tasks. To improve the performance of SSMs, one crucial aspect is effective serialization of image patches. Existing methods, relying on linear scanning curves, often fail to capture complex spatial relationships and produce repetitive patterns, leading to biases. To address these limitations, we propose using fractal scanning curves for patch serialization. Fractal curves maintain high spatial proximity and adapt to different image resolutions, avoiding redundancy and enhancing SSMs' ability to model complex patterns accurately. We validate our method in image classification, detection, and segmentation tasks, and the superior performance validates its effectiveness.

研究动机与目标

通过利用状态空间模型（SSM）解决 Transformer 和 ViT 主干在长序列和高分辨率图像上的低效问题，作为动机与解决方案。
通过分形扫描改进基于 SSM 的视觉骨干中的补丁序列化，以在不同尺度上保持空间关系。
通过简单的移位操作来缓解分形扫描的局部邻接性/连续性限制，以增强局部性。
在图像分类、目标检测和语义分割上展示 FractalMamba 的有效性。
在保持或提升性能的同时，展示 FractalMamba 对高分辨率输入的可扩展性。

提出的方法

采用 Selective SSM 作为核心算子，使时间变化的输入响应 B、C 和 Delta 参数成为可能。
为 2D-to-1D 序列化引入分形（Hilbert）扫描曲线，以保持空间局部性并适应不同图像分辨率。
在分形曲线中实现移位操作，以提高序列化过程中的局部邻接性和连续性。
使用从离散化 SSM（通过零阶保持）推导出的全局卷积核来对序列化补丁进行建模。
在 ImageNet-1K、COCO（对象检测/分割）和 ADE20K（语义分割）上评估 FractalMamba。
与 CNN、ViT 及其他基于 SSM 的骨干网络（如 VMamba、LocalMamba、PlainMamba）进行对比。

实验结果

研究问题

RQ1相较于标准线性扫描，分形扫描曲线在将序列化的 1D 序列中是否能更好地保留空间关系，从而提升基于 SSM 的视觉骨干性能？
RQ2移位操作是否提高分形序列化中的局部邻接性和连续性，从而带来更好的下游性能？
RQ3就图像分类、对象检测和语义分割而言，FractalMamba 相对于 CNN、ViT 及其他基于 SSM 的模型在更高输入分辨率下的表现如何？
RQ4FractalMamba 是否能在输入分辨率增大时线性级别增长 FLOPs 的同时保持准确性？
RQ5分形扫描对不同分辨率和任务的鲁棒性有何影响？

主要发现

模型	图像大小	#Param.	FLOPs	ImageNet Top-1 Acc.
FractalMamba-T	224	31M	4.9G	82.7
FractalMamba-T (Shifting)	224	31M	4.9G	82.9
FractalMamba-T	384	31M	4.9G	82.4
FractalMamba-T	512	31M	4.9G	81.2
FractalMamba-T	640	31M	4.9G	80.2
FractalMamba-T	768	31M	4.9G	77.9
FractalMamba-T	1024	31M	101.5G	69.6

FractalMamba-T 在 ImageNet-1K 224^2 上以 31M 参数、4.9G FLOPs 达到 Top-1 82.7%，在相似 FLOPs 下优于若干基线。
在分形曲线中引入移位操作可在不同分辨率下提升分类准确率（例如 224: 82.9；384: 82.7；512: 81.6；640: 80.5）。
在 COCO 上，FractalMamba-T 使用 12 轮微调后获得 APb 47.8 和 APm 42.9，优于 Swin-T、ConvNeXt-T 及 VMamba-T 的多个指标。
FractalMamba-T 在 ADE20K 上实现语义分割 mIoU 为 48.9（512 裁剪，单尺度）和 49.8（多尺度测试），超过 ResNet-50、DeiT-S+/MLN、Swin-T 和 ConvNeXt-T。
FractalMamba 展现出强大的可扩展性，当输入分辨率增至 1024^2 时保持有竞争力或更高的精度，同时 FLOPs 线性增长，与某些 ViT/Swin 基线不同。
消融显示分形移位在各种任务中始终提高表示保真度和性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。