[논문 리뷰] Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning
이 논문은 Res-VMamba를 소개하며, 글로벌 잔차 학습과 선택적 상태 공간 모델을 통합한 잔여 VMamba 기반 모델로 CNFOOD-241에서 미리 학습(weights) 없이도 최첨단(SOTA) 결과를 달성합니다.
Food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision Transformers (ViTs) to perform food category classification. However, to learn fine-grained features, the CNN backbone needs additional structural design, whereas ViT, containing the self-attention module, has increased computational complexity. In recent months, a new Sequence State Space (S4) model, through a Selection mechanism and computation with a Scan (S6), colloquially termed Mamba, has demonstrated superior performance and computation efficiency compared to the Transformer architecture. The VMamba model, which incorporates the Mamba mechanism into image tasks (such as classification), currently establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this research, we introduce an academically underestimated food dataset CNFOOD-241, and pioneer the integration of a residual learning framework within the VMamba model to concurrently harness both global and local state features inherent in the original VMamba architectural design. The research results show that VMamba surpasses current SOTA models in fine-grained and food classification. The proposed Res-VMamba further improves the classification accuracy to 79.54\% without pretrained weight. Our findings elucidate that our proposed methodology establishes a new benchmark for SOTA performance in food recognition on the CNFOOD-241 dataset. The code can be obtained on GitHub: https://github.com/ChiShengChen/ResVMamba.
연구 동기 및 목표
- 세부적인 intra-class 변동이 크고 inter-class 변동이 낮은 FGVC 태스크로서 미세 분류의 중요성을 제시합니다.
- 전 세계적 및 로컬 상태 특징을 공유하는 잔차 보강 VMamba 모델인 Res-VMamba를 제안하여 정확도를 향상합니다.
- 사전 학습(weight) 없이 CNFOOD-241에서 새로운 SOTA 벤치마크를 확립하기 위해 평가합니다.
제안 방법
- VMamba에 잔차 학습 메커니즘을 도입하여 전역 잔차 경로를 형성하고 원시 입력과 VSS 블록 특징을 혼합하는 Res-VMamba를 구성합니다.
- 딥 러닝용으로의 이산화(디스크리타이제이션)를 포함한 상태 공간 모델(SSM 프레임워크)과 그 구성(A, B, C, D 매트릭스 및 제로스-오브-홀드 근사)을 자세히 설명합니다.
- 2D 선택적 스캔 메커니즘(S6)과 크로스-스캔 모듈(CSM)을 통해 다방향 패치 순서화 및 글로벌-로컬 특징 통합을 가능하게 하는 방법을 설명합니다.
- 4단계 계층적 구조와 패치 병합으로 다운샘플링하는 VMamba 백본 아키텍처를 통해 다중 스케일 표현을 모방합니다.
- 전역 잔차 연결이 4단계 VSS 블록으로 feeding되어 전역 이미지 특징과 로컬 처리 간의 공유를 가능하게 하는 Res-VMamba 아키텍처를 제시합니다.
- AdamW, 코사인 학습률 스케줄링, 레이블 스무딩, EMA, CNFOOD-241 데이터 처리 등을 포함한 학습 프로토콜 설정을 제공합니다.
실험 결과
연구 질문
- RQ1VMamba 기반 아키텍처가 사전 학습 weight 없이도 미세 분류 데이터셋에서 최첨단 성능을 달성할 수 있는가?
- RQ2전역 잔차 메커니즘을 도입하면 VMamba와 함께 사용할 때 미세 분류 성능이 향상되는가?
- RQ3CNFOOD-241에서 Res-VMamba가 top-1 및 top-5 정확도 측면에서 다른 SOTA 모델과 비교해 어떤 차이가 있는가?
- RQ4데이터셋의 특성(균일한 이미지 크기, 불균형)이 CNFOOD-241의 모델 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | 연도 | PW 사용? | 검증 Top-1 정밀도 | 검증 Top-5 정밀도 | 테스트 Top-1 정밀도 | 테스트 Top-5 정밀도 |
|---|---|---|---|---|---|---|
| VGG16 Simonyan and Zisserman ( 2015 ) | 2014 | Y | 66.98 | 90.10 | 65.06 | 89.60 |
| ViT-B Dosovitskiy et al. ( 2021 ) | 2020 | Y | 73.14 | 92.06 | 71.58 | 91.62 |
| ResNet101 He et al. ( 2016 ) | 2015 | Y | 74.42 | 93.62 | 72.59 | 93.16 |
| DenseNet121 Huang et al. ( 2017 ) | 2016 | Y | 76.46 | 94.57 | 74.77 | 94.29 |
| Inceptionv4 Szegedy et al. ( 2016 ) | 2016 | Y | 77.30 | 94.28 | 75.70 | 93.89 |
| PRENet Min et al. ( 2023 ) | 2017 | Y* | 77.47 | 94.86 | 76.02 | 94.61 |
| SEnet154 Hu et al. ( 2018 ) | 2017 | Y | 77.47 | 94.86 | 76.02 | 94.61 |
| RepViT Wang et al. ( 2023 ) | 2023 | Y | 78.08 | 95.41 | 76.86 | 95.02 |
| ConvNeXT-B Liu et al. ( 2022 ) | 2022 | Y | 78.30 | 94.36 | 76.76 | 93.90 |
| EfficientNet-B6 Mingxing Tan ( 2019 ) | 2019 | Y | 80.10 | 94.64 | 78.48 | 94.22 |
| CMAL-Net Liu et al. ( 2023 ) | 2023 | Y † | 80.16 | 95.99 | 78.56 | 95.40 |
| VMamba-S Liu et al. ( 2024a ) | 2024 | N | 79.17 | 95.64 | 77.73 | 95.24 |
| Res-VMamba (ours) | 2024 | N | 79.54 | 95.72 | 78.26 | 95.31 |
| VMamba-S | VMamba-S (pretrained) | 2024 | Y ‡ | 82.15 | 96.91 | 80.58 | 96.71 |
- Res-VMamba는 사전 학습 없이 CNFOOD-241에서 78.26%의 top-1 테스트 정확도를 달성합니다.
- VMamba-S는 사전 학습 가중치로 80.58%의 top-1 테스트 정확도를 달성하는 반면, 사전 학습 없이 Res-VMamba는 78.26%의 top-1 테스트 정확도를 달성하여 미리 학습 없이도 강력한 성능을 보여줍니다.
- Res-VMamba는 사전 학습 없이 VMamba-S를 top-1 정확도에서 0.53% 향상시킵니다.
- CNFOOD-241에서 ImageNet-1K 사전 학습 가중치를 가진 VMamba-S는 top-1 테스트 정확도 80.58%에 도달하며, 사전 학습이 있는 VMamba-S가 여러 베이스라인보다 우수합니다.
- 다수의 베이스라인과 비교될 때, Res-VMamba(당사)는 SOTA 방법들 중에서 경쟁력 있게 순위를 차지하며 사전 학습 없이 VMamba보다 개선된 성능을 보여줍니다.
- CNFOOD-241 데이터셋의 높은 해상도와 불균형은 도전적 벤치마크를 제공하며, Res-VMamba는 식품 인식에 대한 새로운 성능 벤치마크를 확립합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.