[논문 리뷰] M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation
M2SNet은 인코더 계층과 스케일 간의 차이 정보에 초점을 맞춘 다중 스케일 뺄셈 프레임워크와 손실 네트워크(LossNet)를 도입하여 의학 영상 분할 성능을 향상시킨다.
Accurate medical image segmentation is critical for early medical diagnosis. Most existing methods are based on U-shape structure and use element-wise addition or concatenation to fuse different level features progressively in decoder. However, both the two operations easily generate plenty of redundant information, which will weaken the complementarity between different level features, resulting in inaccurate localization and blurred edges of lesions. To address this challenge, we propose a general multi-scale in multi-scale subtraction network (M$^{2}$SNet) to finish diverse segmentation from medical image. Specifically, we first design a basic subtraction unit (SU) to produce the difference features between adjacent levels in encoder. Next, we expand the single-scale SU to the intra-layer multi-scale SU, which can provide the decoder with both pixel-level and structure-level difference information. Then, we pyramidally equip the multi-scale SUs at different levels with varying receptive fields, thereby achieving the inter-layer multi-scale feature aggregation and obtaining rich multi-scale difference information. In addition, we build a training-free network ``LossNet'' to comprehensively supervise the task-aware features from bottom layer to top layer, which drives our multi-scale subtraction network to capture the detailed and structural cues simultaneously. Without bells and whistles, our method performs favorably against most state-of-the-art methods under different evaluation metrics on eleven datasets of four different medical image segmentation tasks of diverse image modalities, including color colonoscopy imaging, ultrasound imaging, computed tomography (CT), and optical coherence tomography (OCT). The source code can be available at https://github.com/Xiaoqi-Zhao-DLUT/MSNet.
연구 동기 및 목표
- Rich 다중 스케일 및 계층 간/내부 차이 정보를 활용해 정확한 의학 영상 분할을 목표로 한다.
- 전통적 특징 융합(덧셈/연결) 대신 뺄셈 기반 집계로 중복성을 줄인다.
- 픽셀- 및 영역 수준의 차이를 포착하기 위한 효율적인 intra-layer 다중 스케일 뺄셈 단위를 개발한다.
- LossNet을 도입해 feature 수준 L2 손실을 통해 세부 정보를 구조로 지도하는 훈련 없는 감독을 제공한다.
- 다양한 모달리티(대장내시경, 초음파, CT, OCT)에서 효과를 입증하고 GOALS 챌린지에서 경쟁력 있는 결과를 달성한다.
제안 방법
- 인접한 인코더 피처 간의 차이를 계산하는 기본적인 뺄셈 단위(SU)를 정의한다.
- 1x1, 3x3, 5x5 크기의 고정 필터를 사용해 파라미터 추가 없이 다중 스케일 차이 정보를 포착하는 intra-layer 다중 스케일 뺄셈 단위(MSU)로 확장한다.
- 인코더 레벨 전반에 걸친 여러 MSU를 적층하고 집계하여 rich cross-level differential features(CE^i)를 얻는 inter-layer 다중 스케일 뺄셈을 구성한다.
- LossNet은(prediction과 ground truth 피처 간의) 피처 수준 L2 손실을 계산하는 학습 없는 감독 네트워크(VGG-16과 같은 사전 학습 분류기 기반)로 세부 정보를 구조로 가이드한다.
- 경계 정밀도와 구조적 정확성을 모두 촉진하는 가중 IoU, 가중 BCE, L2 피처 기반 손실 L_f를 포함하는 결합 손실로 엔드투엔드 학습한다.
실험 결과
연구 질문
- RQ1 뺄셈 기반 피처 융합이 중복성을 줄이고 판별 가능한 차이 정보를 강화하여 의학 영상 분할에서 덧셈/연결보다 우수한가?
- RQ2 다중 스케일에서의 다중 스케일 뺄셈(인터- 및 인트라-레이어)이 다양한 의료 영상 모달리티와 구조에서 분할을 개선하는가?
- RQ3 학습 없이도 LossNet이 자세에서 구조로의 감독을 효과적으로 제공할 수 있는가?
- RQ4 M2SNet이 폴립, COVID-19 흉부 CT, 유방 초음파, 및 OCT 층 분할 과제에서 최첨단 방법과 비교해 어떤 성능을 보이는가?
주요 결과
| 데이터셋 | 지표1 (mDice) | 지표2 (mIoU) | 지표3 (Fβ^w) | 지표4 (Eφ^max) | 지표5 (MAE) | 백본 | 방법 |
|---|---|---|---|---|---|---|---|
| ColonDB | 0.758 | 0.685 | 0.737 | 0.842 | 0.038 | R2-50 | M2SNet |
| ETIS | 0.749 | 0.678 | 0.712 | 0.846 | 0.017 | R2-50 | M2SNet |
| Kvasir | 0.912 | 0.861 | 0.901 | 0.922 | 0.025 | R2-50 | M2SNet |
| CVC-T | 0.903 | 0.842 | 0.881 | 0.939 | 0.009 | R2-50 | M2SNet |
| ClinicDB | 0.922 | 0.880 | 0.917 | 0.942 | 0.009 | R2-50 | M2SNet |
- M2SNet은 4개의 의료 분할 과제와 11개 데이터셋에서 경쟁력 있는 성능을 달성했으며, 폴립, COVID-19 CT, 유방 초음파, OCT 층 분할을 포함한다.
- ColonDB, ETIS, Kvasir, CVC-T, ClinicDB 폴립 데이터셋에서 R2-50 백본을 사용한 M2SNet은 ColonDB에서 mDice/mIoU/Fβ^w/Eφ^max/MAE가 0.758/0.685/0.737/0.842/0.038, ETIS에서 0.749/0.678/0.712/0.846/0.017로 나타나 여러 기준선 대비 상대적 이점을 보인다.
- MICCAI GOALS 챌린지에서 100개 팀 중 두 번째에 기여했다.
- COVID-19 흉부 CT, 유방 초음파, GOALS OCT 데이터셋에서 R2-50 백본의 M2SNet은 여러 기준선 대비 Dice가 더 높고 MED/MAE가 더 낮은 개선된 지표를 제공한다.
- 연산 양자화 연구가 증가하며, SU 유닛과 LossNet 감독을 차례로 추가할 때 성능이 점진적으로 개선되어 인터-/인트라-레이어 다중 스케일 뺄셈 및 피처 수준의 가이드의 효과성을 검증한다.
- M2SNet은 FLOPs와 파라미터 수가 비교적 낮은 편인데도 강력한 정확도를 달성하여 효율적인 다중 스케일 뺄셈을 저적연산 오버헤드로 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.