QUICK REVIEW

[논문 리뷰] Scalable Visual State Space Model with Fractal Scanning

Lv Tang, Hao-Ke Xiao|arXiv (Cornell University)|2024. 05. 23.

Image Retrieval and Classification Techniques인용 수 5

한 줄 요약

FractalMamba를 제안하는 프랙탈 스캔 기반 시각 상태공간 모델로, 이미지 패치를 직렬화하고 SSM을 선형 스캔 대비 효율적으로 확장하며 분류, 탐지 및 세그멘테이션에서 성능을 향상시킵니다.

ABSTRACT

Foundational models have significantly advanced in natural language processing (NLP) and computer vision (CV), with the Transformer architecture becoming a standard backbone. However, the Transformer's quadratic complexity poses challenges for handling longer sequences and higher resolution images. To address this challenge, State Space Models (SSMs) like Mamba have emerged as efficient alternatives, initially matching Transformer performance in NLP tasks and later surpassing Vision Transformers (ViTs) in various CV tasks. To improve the performance of SSMs, one crucial aspect is effective serialization of image patches. Existing methods, relying on linear scanning curves, often fail to capture complex spatial relationships and produce repetitive patterns, leading to biases. To address these limitations, we propose using fractal scanning curves for patch serialization. Fractal curves maintain high spatial proximity and adapt to different image resolutions, avoiding redundancy and enhancing SSMs' ability to model complex patterns accurately. We validate our method in image classification, detection, and segmentation tasks, and the superior performance validates its effectiveness.

연구 동기 및 목표

상태공간 모델(SSM)을 활용하여 긴 시퀀스와 고해상도 이미지에 대한 트랜스포머 및 ViT 백본의 비효율성을 고무하고 해결합니다.
프랙탈 스캐닝을 통해 SSM 기반 비전 백본의 패치 직렬화를 개선하여 크로스 스케일 간 공간 관계를 보존합니다.
지역성 향상을 위한 간단한 시프트 연산으로 프랙탈 스캐닝의 한계(로컬 인접성/연속성)를 완화합니다.
이미지 분류, 객체 탐지 및 시맨틱 세그먼트에서 FractalMamba의 효과를 입증합니다.
고해상도 입력에 대한 FractalMamba의 확장성을 입증하고 성능을 유지하거나 향상시킵니다.

제안 방법

선택적 SSM을 핵심 연산자로 채택하여 시간-가변 입력 반응형 B, C, Delta 매개변수를 가능하게 합니다.
공간적 인접성을 보존하고 다양한 해상도에 적응하기 위해 2D→1D 직렬화를 위한 프랙탈(Hilbert) 스캐닝 곡선을 도입합니다.
직렬화 중 로컬 인접성과 연속성을 향상시키기 위해 프랙탈 곡선에 시프트 연산을 구현합니다.
직렬화된 패치의 시퀀스 모델링을 위해 이산화된 SSM(제로 차수 보유)에 의해 도출된 전역 컨볼루션 커널을 시퀀스 모델링에 사용합니다.
ImageNet-1K, COCO(객체 탐지/세그먼테이션), ADE20K(시맨틱 세그먼테이션) 전반에 걸쳐 FractalMamba를 평가합니다.
CNN-, ViT- 및 다른 SSM 기반 백본(예: VMamba, LocalMamba, PlainMamba)과 비교합니다.

실험 결과

연구 질문

RQ1표준 선형 스캔과 비교하여 프랙탈 스캐닝 곡선이 SSM 기반 비전 백본의 직렬화된 1D 시퀀스에서 공간 관계를 더 잘 보존할 수 있는가?
RQ2프랙탈 직렬화에서 시프트 연산이 로컬 인접성과 연속성을 개선하여 하위 작업에서 더 나은 성능으로 이어지는가?
RQ3고해상도 입력에서 특히 CNN-, ViT-, 기타 SSM 기반 모델에 비해 이미지 분류, 객체 탐지, 시맨틱 세그먼테이션에서 FractalMamba의 성능은 어떤가?
RQ4FractalMamba가 FLOPs가 선형에 가깝게 증가하면서도 대규모 입력 해상도에 확장 가능하고 정확도를 유지하는가?
RQ5해상도 및 작업 전반에 걸친 강건성에 대한 프랙탈 스캐닝의 영향은 무엇인가?

주요 결과

모델	이미지 크기	매개변수 수	연산 FLOPs	ImageNet Top-1 정확도
FractalMamba-T	224	31M	4.9G	82.7
FractalMamba-T (Shifting)	224	31M	4.9G	82.9
FractalMamba-T	384	31M	4.9G	82.4
FractalMamba-T	512	31M	4.9G	81.2
FractalMamba-T	640	31M	4.9G	80.2
FractalMamba-T	768	31M	4.9G	77.9
FractalMamba-T	1024	31M	101.5G	69.6

FractalMamba-T는 224^2에서 ImageNet-1K 상위 1% 82.7%를 달성하며 31M 매개변수와 4.9G FLOPs로, 유사한 FLOPs의 여러 기준선을 능가합니다.
프랙탈 곡선에 시프트 연산을 도입하면 해상도 전반에서 분류 정확도가 향상됩니다(예: 224: 82.9, 384: 82.7, 512: 81.6, 640: 80.5).
COCO에서 12 에폭 파인튜닝을 적용한 FractalMamba-T는 APb 47.8 및 APm 42.9를 기록하여 Swin-T, ConvNeXt-T, VMamba-T 등 여러 지표에서 우수합니다.
ADE20K에서 FractalMamba-T의 시맨틱 세그멘테이션 mIoU는 48.9(512 자르기, 단일 스케일) 및 49.8(MS)로, ResNet-50, DeiT-S+/MLN, Swin-T, ConvNeXt-T를 능가합니다.
FractalMamba는 입력 해상도가 1024^2로 증가할 때 FLOPs가 선형적으로 증가하는 반면 정확도를 유지하거나 우수한 성능을 보여 강력한 확장성을 입증합니다. 이는 일부 ViT/Swin 기준과 다릅니다.
변형 연구는 프랙탈 시프트가 모든 과제에서 표현 충실도와 성능을 일관되게 향상시킴을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.