[논문 리뷰] ParaTransCNN: Parallelized TransCNN Encoder for Medical Image Segmentation
이 논문은 CNN과 Transformer를 파이프라인으로 결합한 파라렐 인코더 ParaTransCNN을 제시한다. 피라미드 구조와 채널 어텐션을 통해 지역적 특징과 전역적 특징을 융합하여 의료 영상 분할에서 다수의 데이터셋에 걸쳐 특히 작은 기관들에서 우수한 성능을 달성한다.
The convolutional neural network-based methods have become more and more popular for medical image segmentation due to their outstanding performance. However, they struggle with capturing long-range dependencies, which are essential for accurately modeling global contextual correlations. Thanks to the ability to model long-range dependencies by expanding the receptive field, the transformer-based methods have gained prominence. Inspired by this, we propose an advanced 2D feature extraction method by combining the convolutional neural network and Transformer architectures. More specifically, we introduce a parallelized encoder structure, where one branch uses ResNet to extract local information from images, while the other branch uses Transformer to extract global information. Furthermore, we integrate pyramid structures into the Transformer to extract global information at varying resolutions, especially in intensive prediction tasks. To efficiently utilize the different information in the parallelized encoder at the decoder stage, we use a channel attention module to merge the features of the encoder and propagate them through skip connections and bottlenecks. Intensive numerical experiments are performed on both aortic vessel tree, cardiac, and multi-organ datasets. By comparing with state-of-the-art medical image segmentation methods, our method is shown with better segmentation accuracy, especially on small organs. The code is publicly available on https://github.com/HongkunSun/ParaTransCNN.
연구 동기 및 목표
- 지역 맥락과 글로벌 맥락을 모두 포착하여 의료 영상 분할을 향상시키려는 동기 부여.
- 다중 스케일에서 CNN과 Transformer 표현을 융합하는 병렬 인코더를 개발.
- 효과적인 특징 융합을 위한 피라미드 구조의 Transformer와 채널 어텐션 모듈을 도입.
- 대동맥 혈관 가지치기 트리, 심장 및 다기관 분할 작업에서 최신 방법들과 대조하여 평가.
제안 방법
- 로컬 특징을 위한 CNN(ResNet)과 글로벌 특징을 위한 Transformer(ViT)를 갖춘 이중 분기 인코더.
- 다양한 해상도에서 글로벌 정보를 학습하는 피라미드 Transformer(다운샘플 비율 4, 8, 16의 단계).
- CNN과 Transformer 특징을 맞추기 위한 단계별 패치 임베딩.
- 디코더로 전달되기 전 각 단계에서 CNN과 Transformer 특징을 융합하기 위한 채널 어텐션 모듈.
- 스킵 연결 및 컨볼루션 디코더를 갖춘 U-Net 유사 인코더-디코더 아키텍처.
- 다이스(Dice)와 교차 엔트로피(Cross-Entropy)의 합손실(동일 가중치 0.5).
![Figure 1: Conceptual comparison of the three most popular models used for medical image segmentation, where (a) classical U-Net [ 39 ] ; (b) Swin U-Net [ 8 ] ; (c) TransUNet [ 10 ] ; (d) Our parallelized TransCNN encoder.](https://ar5iv.labs.arxiv.org/html/2401.15307/assets/x1.png)
실험 결과
연구 질문
- RQ1피라미드 글로벌 특징을 갖춘 병렬 CNN+Transformer 인코더가 단일 분기 모델보다 분할 정확도를 향상시키는가?
- RQ2채널 어텐션이 다중 스케일 로컬 및 글로벌 특징을 효과적으로 융합하여 작은 기관까지 정확한 분할을 달성하는가?
- RQ3패치 임베딩 전략과 Transformer 깊이가 분할 성능에 미치는 영향은 무엇인가?
- RQ4ParaTransCNN이 다중 센터 의료 영상 데이터세트(AVT, ACDC, Synapse)에서 최신 방법들과 비교해 어떤 성능을 보이는가?
주요 결과
- ParaTransCNN은 AVT, ACDC 및 Synapse 데이터세트에서 최첨단 또는 경쟁력 있는 결과를 달성한다.
- AVT에서 ParaTransCNN은 DSC = 87.82% 및 95% HD = 4.70으로, DSC와 HD에서 두 번째로 높은 메서드를 앞선다.
- ACDC에서 ParaTransCNN은 DSC = 91.31% 및 HD = 1.16으로, 다수의 기준선보다 두 메트릭 모두에서 우수하다.
- Synapse에서 ParaTransCNN은 DSC = 83.86% 및 HD = 15.86에 도달하여 췌장 및 위 부분의 성능이 현저히 개선된다.
- 애블레이션 연구는 피라미드 Transformer와 채널 어텐션이 최적 성능에 결정적이며, 패치 오버랩 및 네 번째 스테이지의 더 깊은 다운샘플링은 이익이 되지 않는다는 것을 보여준다.
- 정성적 결과는 기저선 대비 더 연속적인 혈관 구조와 작은 기관(췌장 및 비장) 분할의 개선을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.