Skip to main content
QUICK REVIEW

[논문 리뷰] MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation

Saikat Roy, Gregor Koehler|arXiv (Cornell University)|2023. 03. 17.
Radiomics and Machine Learning in Medical Imaging인용 수 17
한 줄 요약

MedNeXt 는 잔여 반전 병목 및 UpKern 커널 업샘플링과 함께 완전 ConvNeXt 3D 인코더-디코더 아키텍처를 제안하여 CT 및 MRI 데이터셋에서 최첨단 의학 영상 분할을 달성합니다.

ABSTRACT

There has been exploding interest in embracing Transformer-based architectures for medical image segmentation. However, the lack of large-scale annotated medical datasets make achieving performances equivalent to those in natural images challenging. Convolutional networks, in contrast, have higher inductive biases and consequently, are easily trainable to high performance. Recently, the ConvNeXt architecture attempted to modernize the standard ConvNet by mirroring Transformer blocks. In this work, we improve upon this to design a modernized and scalable convolutional architecture customized to challenges of data-scarce medical settings. We introduce MedNeXt, a Transformer-inspired large kernel segmentation network which introduces - 1) A fully ConvNeXt 3D Encoder-Decoder Network for medical image segmentation, 2) Residual ConvNeXt up and downsampling blocks to preserve semantic richness across scales, 3) A novel technique to iteratively increase kernel sizes by upsampling small kernel networks, to prevent performance saturation on limited medical data, 4) Compound scaling at multiple levels (depth, width, kernel size) of MedNeXt. This leads to state-of-the-art performance on 4 tasks on CT and MRI modalities and varying dataset sizes, representing a modernized deep architecture for medical image segmentation. Our code is made publicly available at: https://github.com/MIC-DKFZ/MedNeXt.

연구 동기 및 목표

  • 데이터 부족 조건에서 의학 영상 분할에서 완전 ConvNeXt 3D 인코더-디코더가 Transformer 기반 및 대형 커널 기반 기준보다 우수할 수 있음을 보여준다.
  • 크기 확대/축소에서 의미론적 풍부함을 보존하기 위해 잔여 반전 병목을 도입한다.
  • 제한된 데이터에서 대형 커널 학습 포화 현상을 완화하기 위한 커널 업샘플링 초기화 기법 UpKern 을 개발한다.
  • 깊이, 폭, 수용 영역에 걸친 복합 스케일링을 적용하여 작업 및 모달리티 전반의 성능을 최적화한다.

제안 방법

  • ConvNeXt 블록으로만 구성된 4-층 인코더-디코더 MedNeXt 아키텍처를 사용한다.
  • 업/다운샘플링 경로에 잔여 반전 병목을 구현하여 그래디언트 흐름과 의미 보존을 개선한다.
  • UpKern 도입: 3선형 업샘플링 기반 초기화를 통해 처음부터 재학습 없이 커널 크기를 확장한다.
  • MedNeXt 구성(S, B, M, L) 전반에 걸쳐 깊이, 폭 및 커널 크기를 함께 확장하기 위한 복합 스케일링을 적용한다.
  • 네 개 데이터셋에서 5-폴드 교차 검증으로 학습하고 nnUNet 및 다수의 Transformer/대형 커널 baselines 와 비교한다.
((a)) MedNeXt macro and block architecture
((a)) MedNeXt macro and block architecture

실험 결과

연구 질문

  • RQ1제한된 데이터에서 의학 영상 작업에서 완전 ConvNeXt 3D 분할 네트워크가 Transformer 기반 및 대형 커널 방법을 능가할 수 있는가?
  • RQ2잔여 반전 병목 및 UpKern 초기화가 대형 커널의 성능 및 학습 안정성을 향상시키는가?
  • RQ3깊이, 폭 및 수용 영역에 걸친 복합 스케일링이 다양한 크기의 CT 및 MRI 데이터셋에서 지속적인 이점을 가져오는가?

주요 결과

네트워크BTCV DSCBTCV SDCAMOS22 DSCAMOS22 SDCKiTS19 DSCKiTS19 SDCBraTS21 DSCBraTS21 SDCAVG DSCAVG SDC
nnUNet Baselines83.5686.0788.8891.7089.8886.8891.2390.4688.3988.78
UNETR75.0675.0081.9882.6584.1078.0589.6588.2882.3681.00
TransUNet76.7276.6485.0586.5280.8272.9089.1787.7882.9480.96
TransBTS82.3584.3386.5288.8487.0383.5390.6689.7186.6486.60
nnFormer80.7682.3784.2086.3889.0985.0890.4289.8386.1285.92
SwinUNETR80.9582.4386.8389.2387.3683.0990.4889.5686.4186.08
3D-UX-Net80.7682.3087.2889.7488.3984.0390.6389.6386.7786.43
MedNeXt-S kernel:383.9086.6089.0391.9790.4587.8091.2790.4688.6689.21
MedNeXt-B84.0186.7789.1492.1091.0288.2491.3090.5188.8789.41
MedNeXt-M84.3187.3489.2792.2890.7888.2291.5790.7888.9889.66
MedNeXt-L84.5787.5489.5892.6290.6188.0891.5790.8189.0889.76
MedNeXt-S kernel:583.9286.8089.2792.2690.0887.0491.4090.5788.6789.17
MedNeXt-B84.2387.0689.3892.3690.3087.4091.4890.7088.8589.38
MedNeXt-M84.4187.4889.5892.6590.8788.1591.4990.6789.0989.74
MedNeXt-L84.8287.8589.8792.9590.7187.8591.4690.7389.2289.85
  • MedNeXt 변형은 네 가지 데이터셋(BTCV, AMOS22, KiTS19, BraTS21)에서 기준선과 비교하여 최첨단 성능을 달성한다.
  • 커널 5×5×5 및 UpKern 초기화를 갖춘 MedNeXt-L 이 공개 테스트 세트에서 nnUNet 을 능가한다 (DSC 점수; BTCV 88.76, AMOS22 91.77, KiTS19 91.02, BraTS21 88.01).
  • 소거실험에서 잔여 반전 병목이 표준 리샘플링에 비해 성능을 크게 향상시킴을 보여준다.
  • UpKern 초기화로 대형 커널 네트워크(5×5×5)가 소형 커널 모델을 능가하도록 가능하게 하며, 대형 커널로의 무작정 재학습은 성능이 떨어진다.
  • 깊이, 폭 및 커널 크기에 걸친 복합 스케일링이 데이터셋 전반에서 추가 개선을 가져온다.
  • 5-폴드 교차 검증에서 MedNeXt 변형이 3×3×3 또는 5×5×5 커널을 사용할 때 모든 데이터셋에서 모든 기준선을 능가한다.
((b)) UpKern Initialization
((b)) UpKern Initialization

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.