Skip to main content
QUICK REVIEW

[논문 리뷰] MSA$^2$Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation

Sina Ghorbani Kolahi, S. Kamal Chaharsooghi|arXiv (Cornell University)|2024. 07. 31.
Brain Tumor Detection and Classification인용 수 5
한 줄 요약

MSA2Net은 MASAG, 다중 스케일 적응 공간 주의 게이트를 도입하여 인코더-디코더 특징을 융합하고 정확한 의료 영상 분할을 위한 하이브리드 CNN-Transformer 프레임워크를 제시하며 Synapse와 ISIC2018 데이터셋에서 최첨단 결과를 달성한다.

ABSTRACT

Medical image segmentation involves identifying and separating object instances in a medical image to delineate various tissues and structures, a task complicated by the significant variations in size, shape, and density of these features. Convolutional neural networks (CNNs) have traditionally been used for this task but have limitations in capturing long-range dependencies. Transformers, equipped with self-attention mechanisms, aim to address this problem. However, in medical image segmentation it is beneficial to merge both local and global features to effectively integrate feature maps across various scales, capturing both detailed features and broader semantic elements for dealing with variations in structures. In this paper, we introduce MSA$^2$Net, a new deep segmentation framework featuring an expedient design of skip-connections. These connections facilitate feature fusion by dynamically weighting and combining coarse-grained encoder features with fine-grained decoder feature maps. Specifically, we propose a Multi-Scale Adaptive Spatial Attention Gate (MASAG), which dynamically adjusts the receptive field (Local and Global contextual information) to ensure that spatially relevant features are selectively highlighted while minimizing background distractions. Extensive evaluations involving dermatology, and radiological datasets demonstrate that our MSA$^2$Net outperforms state-of-the-art (SOTA) works or matches their performance. The source code is publicly available at https://github.com/xmindflow/MSA-2Net.

연구 동기 및 목표

  • 의료 영상에서 장기 크기, 형태, 밀도의 가변성에 대응한다.
  • 인코더와 디코더 사이의 적응형 스킵 연결을 통해 국부적 및 전역적 특징을 융합한다.
  • 수용 영역을 동적으로 재보정하고 공간적으로 관련된 특징을 강조하는 모듈(MASAG)을 개발한다.
  • 경계 인식 손실(boundary-aware loss)과 함께 다기관 Synapse 및 ISIC2018 데이터셋에서 접근법을 검증한다.

제안 방법

  • MASAG(Multi-Scale Adaptive Spatial Attention Gate)을 제안하여 동적 수용 영역으로 인코더와 디코더 특징을 융합한다.
  • 얕은 계층은 Large Kernel Attention(LKA)을 사용하고 더 깊은 계층은 Dual Attention Enhanced Transformer(DAE-Former) 블록을 사용하는 하이브리드 디코더를 사용한다.
  • Local Context Extraction과 Global Context Extraction을 결합한 다중 스케일 특징 융합을 구현한다.
  • 공간 선택(spatial selection), 공간 상호작용(spatial interaction), 교차 변조(cross-modulation), 재보정(recalibration)을 포함하여 특징 맵을 정교화해 정확한 분할을 달성한다.
  • 전이 학습된 가중치를 가진 MaxViT 기반 인코더와 경계 경계(boundary) 분리를 위한 경계 인식 BDoU 손실(boundary-aware BDoU loss)을 사용한다.
  • Synapse(다기관 CT)와 ISIC2018(피부 병변) 데이터셋에서 평가한다.
Figure 1: Our proposed segmentation network, called MSA ${}^{\text{2}}$ Net, is composed of an encoder (using pretrained MaxViT block) and a decoder (comprising DAE-Former blocks in shallow layers and LKA blocks in deeper ones). The encoding-decoding feature fusion is performed via our novel MASAG m
Figure 1: Our proposed segmentation network, called MSA ${}^{\text{2}}$ Net, is composed of an encoder (using pretrained MaxViT block) and a decoder (comprising DAE-Former blocks in shallow layers and LKA blocks in deeper ones). The encoding-decoding feature fusion is performed via our novel MASAG m

실험 결과

연구 질문

  • RQ1MASAG가 가변 규모의 객체에 대해 수용 영역을 동적으로 재보정하여 분할을 개선할 수 있는가?
  • RQ2MASAG를 포함한 하이브리드 인코더-디코더가 의료 영상 분할에서 최첨단 CNN-Transformer 모델을 능가하는가?
  • RQ3로컬 및 글로벌 컨텍스트 융합과 적응형 스킵 연결이 경계 정밀도와 전체 DSC/HD95 지표에 어떤 영향을 미치는가?
  • RQ4이 접근법이 영상 학술 분야의 방사선학 및 피부과 영상 modality 전반에서 강건한가?

주요 결과

방법들매개변수 (M)FLOPs (G)Spl.RKid.LKid.Gal.Liv.Sto.Aor.Pan.AverageDSC ↑HD95 ↓
TransUNet [ Chen et al.(2021) ]96.0788.9185.0877.0281.8763.1694.0875.6287.2355.8677.4931.69
Swin-UNet [ Cao et al.(2022) ]27.176.1690.6679.6183.2866.5394.2976.6085.4756.5879.1321.55
MISSFormer [ Huang et al.(2021) ]42.469.8991.9282.0085.2168.6594.4180.8186.9965.6781.9618.20
ScaleFormer [ Huang et al.(2022) ]111.648.9389.4083.3186.3674.9795.1280.1488.7364.8582.8616.81
HiFormer-B [ Heidari et al.(2023) ]25.518.04590.9979.7785.2365.2394.6181.0886.2159.5280.3914.70
DAEFormer [ Azad et al.(2023a) ]48.0727.8991.8282.3987.6671.6595.0880.7787.8463.9382.6316.39
2D D-LKA Net [ Azad et al.(2023b) ]101.6419.9291.2284.9288.3873.7994.8884.9488.3467.7184.2720.04
MSA${}^{2}$ Net (Ours)112.7715.5692.6984.2488.3074.3595.5984.0389.4769.3084.7513.29
  • MSA2Net은 Synapse 데이터셋에서 DSC 84.75 및 HD95 13.29를 달성하며 여러 SOTA 베이스라인을 능가한다.
  • ISIC2018에서 MSA2Net은 DSC 0.9129, SE 0.8840, SP 0.9557, ACC 0.9640를 달성하며 다수의 기존 방법을 능가한다.
  • 변수 구성에서 MASAG, LKA, DAE-Former를 포함한 여러 구성의 제거 실험(ablation)이 점진적 이득을 보였고, 세 구성요소를 모두 결합한 경우 Dice/HD95의 최적 트레이드오프를 얻는다.
  • MSA2Net은 Synapse에서 췌장 및 대동맥 분할에서 주목할 만한 개선을 보여 주며, 작은 장기와 큰 장기에 대해 동적 수용 영역 재조정의 이점을 보여준다.
Figure 2: A comparative visual examination of the proposed approach in contrast to different methods employing the Synapse multi-organ segmentation dataset.
Figure 2: A comparative visual examination of the proposed approach in contrast to different methods employing the Synapse multi-organ segmentation dataset.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.