Skip to main content
QUICK REVIEW

[논문 리뷰] VM-UNet: Vision Mamba UNet for Medical Image Segmentation

Jiacheng Ruan, Suncheng Xiang|arXiv (Cornell University)|2024. 02. 04.
Medical Image Segmentation Techniques인용 수 205
한 줄 요약

VM-UNet은 Vision Mamba 블록을 사용하는 순수한 상태 공간 모델 기반의 의료 영상 분할 U-Net으로, ISIC17/ISIC18 및 Synapse 데이터셋에서 경쟁력 있는 성능을 달성합니다.

ABSTRACT

In the realm of medical image segmentation, both CNN-based and Transformer-based models have been extensively explored. However, CNNs exhibit limitations in long-range modeling capabilities, whereas Transformers are hampered by their quadratic computational complexity. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as a promising approach. They not only excel in modeling long-range interactions but also maintain a linear computational complexity. In this paper, leveraging state space models, we propose a U-shape architecture model for medical image segmentation, named Vision Mamba UNet (VM-UNet). Specifically, the Visual State Space (VSS) block is introduced as the foundation block to capture extensive contextual information, and an asymmetrical encoder-decoder structure is constructed with fewer convolution layers to save calculation cost. We conduct comprehensive experiments on the ISIC17, ISIC18, and Synapse datasets, and the results indicate that VM-UNet performs competitively in medical image segmentation tasks. To our best knowledge, this is the first medical image segmentation model constructed based on the pure SSM-based model. We aim to establish a baseline and provide valuable insights for the future development of more efficient and effective SSM-based segmentation systems. Our code is available at https://github.com/JCruan519/VM-UNet.

연구 동기 및 목표

  • 의료 영상 분할을 위한 순수한 SSM 기반 모델의 탐구를 촉진한다.
  • 비대칭 U-Net에서 Vision Mamba 블록(VSS)을 이용한 VM-UNet 아키텍처를 제안한다.
  • 공개 데이터셋에서 순수 SSM 기반 의료 영상 분할의 기준선을 제시한다.
  • 피부 병변 및 다기관 분할에 대해 VM-UNet을 평가하여 경쟁력을 평가한다.

제안 방법

  • 패치 임베딩/확장을 포함하는 네 단계의 비대칭 인코더–디코더를 활용한다.
  • 인코더와 디코더 모두에서 핵심 특징 추출기로 Vision Mamba (VSS) 블록을 사용한다.
  • VSS 블록에서 장거리 맥락 모델링을 위한 SS2D를 포함한 두 가지 분기 경로를 적용한다.
  • SS2D를 스캔 확장/병합 및 Mamba에서 파생된 S6 블록으로 방향성 의존성을 포착하도록 구현한다.
  • 가법 융합을 통한 간단한 스킵 연결을 채택하고 BceDice 또는 CeDice 손실로 학습한다.
  • VM-UNet을 VMamba-S pretrained 가중치로 초기화하고 ISIC17/ISIC18/Synapse 데이터셋에서 학습한다.

실험 결과

연구 질문

  • RQ1순수 SSM 기반 모델이 의료 영상 분할에서 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ2피부 병변 및 기관 분할에서 Vision Mamba UNet이 CNN- 및 Transformer 기반 기준선과 어떻게 비교되는가?
  • RQ3사전 학습된 VMamba 가중치가 VM-UNet 성능에 미치는 영향은 무엇인가?
  • RQ4VM-UNet이 미래의 SSM 기반 분할 방법에 어떤 기준선을 설정하는가?

주요 결과

Dataset모델mIoU (%) ↑DSC (%) ↑Acc (%) ↑Spe (%) ↑Sen (%) ↑
ISIC17UNet76.9886.9995.6597.4386.82
ISIC17UTNetV277.3587.2395.8498.0584.85
ISIC17TransFuse79.2188.4096.1797.9887.14
ISIC17MALUNet78.7888.1396.1898.4784.78
ISIC17VM-UNet80.2389.0396.2997.5889.90
ISIC18UNet77.8687.5594.0596.6985.86
ISIC18UNet++78.3187.8394.0295.7588.65
ISIC18Att-UNet78.4387.9194.1396.2387.60
ISIC18UTNetV278.9788.2594.3296.4887.60
ISIC18SANet79.5288.5994.3995.9789.46
ISIC18TransFuse80.6389.2794.6695.7491.28
ISIC18MALUNet80.2589.0494.6296.1989.74
ISIC18VM-UNet81.3589.7194.9196.1391.12
SynapseVM-UNetDSC 81.08HD95 19.21Aorta 86.40Gallbladder 69.41Kidney(L) 86.16Kidney(R) 82.76Liver 94.17Pancreas 58.80Spleen 89.51Stomach 81.40
  • VM-UNet은 ISIC17 및 ISIC18에서 경쟁력 있는 mIoU, DSC 및 정확도를 달성하며 여러 기준선을 능가한다.
  • ISIC17에서 VM-UNet은 mIoU 80.23%, DSC 89.03%, Acc 96.29%, Spe 97.58%, Sen 89.90%를 달성한다.
  • ISIC18에서 VM-UNet은 mIoU 81.35%, DSC 89.71%, Acc 94.91%, Spe 96.13%, Sen 91.12%를 달성한다.
  • Synapse에서 VM-UNet은 DSC 81.08% 및 HD95 19.21로 데이터셋 전반에서 우수한 성능을 보인다.
  • Swin-UNet(순수 Transformer)와 비교했을 때 VM-UNet은 DSC에서 1.95% 포인트, HD95에서 2.34 mm를 개선한다.
  • 아블레이션은 VMamba-S pretrained 가중치를 사용할 때 무작위 초기화에 비해 성능이 크게 향상됨을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.