[論文レビュー] Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning
この論文は Res-VMamba を提案し、グローバル残差学習と選択的状態空間モデルを統合した残差 VMamba ベースのモデルで、事前学習 weight なしでも CNFOOD-241 の細粒度食品分類で最先端の結果を達成します。
Food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision Transformers (ViTs) to perform food category classification. However, to learn fine-grained features, the CNN backbone needs additional structural design, whereas ViT, containing the self-attention module, has increased computational complexity. In recent months, a new Sequence State Space (S4) model, through a Selection mechanism and computation with a Scan (S6), colloquially termed Mamba, has demonstrated superior performance and computation efficiency compared to the Transformer architecture. The VMamba model, which incorporates the Mamba mechanism into image tasks (such as classification), currently establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this research, we introduce an academically underestimated food dataset CNFOOD-241, and pioneer the integration of a residual learning framework within the VMamba model to concurrently harness both global and local state features inherent in the original VMamba architectural design. The research results show that VMamba surpasses current SOTA models in fine-grained and food classification. The proposed Res-VMamba further improves the classification accuracy to 79.54\% without pretrained weight. Our findings elucidate that our proposed methodology establishes a new benchmark for SOTA performance in food recognition on the CNFOOD-241 dataset. The code can be obtained on GitHub: https://github.com/ChiShengChen/ResVMamba.
研究の動機と目的
- 高 intra-class variation が大きく intra-class variation が低い challenging FGVC タスクとしての細粒度食品分類の動機付け。
- Res-VMamba の提案:グローバル特徴と局所特徴を共有する残差強化型 VMamba モデルにより精度を向上。
- pretrained weights なしで食品認識の新しい SOTA ベンチマークを CNFOOD-241 で確立する評価。
提案手法
- VMamba に残差学習機構を導入し、グローバル残差経路が raw input と VSS ブロック特徴をブレンドする Res-VMamba を形成。
- 深層学習のための離散化を含む状態空間モデル(SSM)フレームワークとその離散化を詳細化し、A、B、C、D 行列および zeroth-order hold 近似を含む。
- 2D selective Scan Mechanism (S6) と Cross-Scan Module (CSM) を説明し、マルチディレクショナルなパッチシーケンスとグローバル-ローカル特徴の統合を可能にする。
- VMamba バックボーンの階層的なステージ(4 ステージ)とパッチ結合によるダウンサンプリングを、マルチスケール表現の模倣として説明。
- Res-VMamba アーキテクチャはグローバル残差接続が四段階の VSS ブロックへと feed され、グローバル画像特徴の共有と局所処理を実現。
- AdamW、コサイン学習率スケジュール、ラベル平滑化、EMA、CNFOOD-241 のデータ取り扱いを含むトレーニングプロトコル設定を提供。
実験結果
リサーチクエスチョン
- RQ1 pretrained weights なしで VMamba ベースのアーキテクチャは細粒度食品データセットで最先端の性能を達成できるか?
- RQ2グローバル残差機構を組み込むと VMamba 使用時に細粒度食品分類の精度は向上するか?
- RQ3Res-VMamba は CNFOOD-241 においてトップ1およびトップ5の精度で他の SOTA モデルと比較してどうか?
- RQ4データセットの特性(均一な画像サイズ、不均衡)が CNFOOD-241 のモデル性能に与える影響は何か?
主な発見
| モデル | 年 | PWを使用? | Top-1 バリデーション精度 | Top-5 バリデーション精度 | Top-1 テスト精度 | Top-5 テスト精度 |
|---|---|---|---|---|---|---|
| VGG16 Simonyan and Zisserman ( 2015 ) | 2014 | Y | 66.98 | 90.10 | 65.06 | 89.60 |
| ViT-B Dosovitskiy et al. ( 2021 ) | 2020 | Y | 73.14 | 92.06 | 71.58 | 91.62 |
| ResNet101 He et al. ( 2016 ) | 2015 | Y | 74.42 | 93.62 | 72.59 | 93.16 |
| DenseNet121 Huang et al. ( 2017 ) | 2016 | Y | 76.46 | 94.57 | 74.77 | 94.29 |
| Inceptionv4 Szegedy et al. ( 2016 ) | 2016 | Y | 77.30 | 94.28 | 75.70 | 93.89 |
| PRENet Min et al. ( 2023 ) | 2017 | Y* | 77.47 | 94.86 | 76.02 | 94.61 |
| SEnet154 Hu et al. ( 2018 ) | 2017 | Y | 77.47 | 94.86 | 76.02 | 94.61 |
| RepViT Wang et al. ( 2023 ) | 2023 | Y | 78.08 | 95.41 | 76.86 | 95.02 |
| ConvNeXT-B Liu et al. ( 2022 ) | 2022 | Y | 78.30 | 94.36 | 76.76 | 93.90 |
| EfficientNet-B6 Mingxing Tan ( 2019 ) | 2019 | Y | 80.10 | 94.64 | 78.48 | 94.22 |
| CMAL-Net Liu et al. ( 2023 ) | 2023 | Y † | 80.16 | 95.99 | 78.56 | 95.40 |
| VMamba-S Liu et al. ( 2024a ) | 2024 | N | 79.17 | 95.64 | 77.73 | 95.24 |
| Res-VMamba (ours) | 2024 | N | 79.54 | 95.72 | 78.26 | 95.31 |
| VMamba-S | VMamba-S (pretrained) | 2024 | Y ‡ | 82.15 | 96.91 | 80.58 | 96.71 |
- Res-VMamba は pretrained weights なしで CNFOOD-241 の Top-1 テスト精度 78.26% を達成。
- VMamba-S は pretrained weights で Top-1 テスト精度 80.58% を達成する一方、Res-VMamba は pretrained weights なしで 78.26% の Top-1 テスト精度に到達し、事前学習なしでも強力な性能を示す。
- Res-VMamba は pretrained weights なしの VMamba-S を Top-1 精度で 0.53% 上回る。
- CNFOOD-241 では、ImageNet-1K pretrained weights を使用した VMamba-S は Top-1 テスト精度 80.58% を達成し、事前学習付き VMamba-S はいくつかのベースラインを上回る。
- 複数のベースラインと比較して、Res-VMamba( ours)は SOTA 手法の中で競争力のある順位に位置し、pretraining なしの VMamba より改善を示す。
- CNFOOD-241 データセットの高解像度と不均衡は難易度の高いベンチマークを提示し、Res-VMamba は食品認識の新しい性能ベンチマークを確立する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。