[논문 리뷰] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation
TransFuse는 저수준 세부 정보와 전역 맥락을 함께 포착하기 위해 BiFusion 융합 모듈이 있는 병렬 CNN과 Transformer 아키텍처를 도입하여 의학 영상 분할에서 매개변수 수가 적고 추론 속도가 빠른 상태-오브-더-아트(SOTA) 결과를 달성합니다.
Medical image segmentation - the prerequisite of numerous clinical needs - has been significantly prospered by recent advances in convolutional neural networks (CNNs). However, it exhibits general limitations on modeling explicit long-range relation, and existing cures, resorting to building deep encoders along with aggressive downsampling operations, leads to redundant deepened networks and loss of localized details. Hence, the segmentation task awaits a better solution to improve the efficiency of modeling global contexts while maintaining a strong grasp of low-level details. In this paper, we propose a novel parallel-in-branch architecture, TransFuse, to address this challenge. TransFuse combines Transformers and CNNs in a parallel style, where both global dependency and low-level spatial details can be efficiently captured in a much shallower manner. Besides, a novel fusion technique - BiFusion module is created to efficiently fuse the multi-level features from both branches. Extensive experiments demonstrate that TransFuse achieves the newest state-of-the-art results on both 2D and 3D medical image sets including polyp, skin lesion, hip, and prostate segmentation, with significant parameter decrease and inference speed improvement.
연구 동기 및 목표
- 의료 영상 분할에서 CNN의 글로벌 컨텍스트 모델링과 로컬 디테일 보존의 한계를 다룬다.
- 효율적인 특징 융합을 위한 BiFusion 모듈을 가진 병렬 CNN-Transformer 아키텍처(TransFuse)를 제안한다.
- BiFusion과 함께 병렬 가지가 더 적은 매개변수와 더 빠른 추론으로 강한 분할 성능을 보임을 보여준다.
- 다양한 2D/3D 의료 데이터셋(폴립, 피부 병변, 고관절, 전립선)에서 최첨단 결과를 입증한다.
제안 방법
- 정보를 다르게 처리하는 두 개의 병렬 가지: 로컬 공간 세부 정보를 강조하는 CNN 가지와 글로벌 맥락을 모델링하는 Transformer 가지.
- BiFusion 모듈은 채널 및 공간 주의(attention)와 Hadamard 곱을 사용하여 두 가지 가지의 다단계 특징을 융합한다.
- 주의 기반의 스킵 연결을 통한 후기 융합은 융합된 특징을 집계하여 분할 맵을 생성한다.
- 손실은 가중 IoU와 가중 이진 교차 엔트로피를 두 가지 가지에 걸친 심층 감독과 함께 결합한다.
- 변형(TransFuse-S, TransFuse-L, TransFuse-L*)은 서로 다른 백본 선택(CNN+ DeiT/ViT 백본)을 탐구한다.
실험 결과
연구 질문
- RQ1매우 깊은 네트워크 없이도 병렬 CNN과 Transformer 가지가 의학 영상 분할에 보완 정보를 포착할 수 있는가?
- RQ2BiFusion 모듈이 다단계 CNN과 Transformer 특징을 융합하는 데 얼마나 효과적인가?
- RQ3제안된 TransFuse 변형들이 다양한 2D/3D 의료 분할 작업에서 정확도와 효율성을 개선하는가?
- RQ4Polyp, 피부 병변, 고관절, 전립선 분할 데이터셋에서 TransFuse의 성능은 어느 정도인가?
주요 결과
- TransFuse는 다수의 2D 및 3D 의료 분할 작업(폴립, 피부 병변, 고관절, 전립선)에서 최첨단 성능을 달성한다.
- 병렬 Transformer 가지를 활용하여 단일 가지 CNN 다운샘플링을 줄이고, 글로벌 맥락을 개선한 더 얕은 전체 모델을 얻는다.
- TransFuse-S는 약 26.3M 매개변수로 경쟁력 있거나 우수한 결과를 얻고 추론 속도가 빠르다(예: RTX 2080 Ti에서 98.7 FPS).
- TransFuse-L*는 도전적인 폴립 데이터 세트에서 TransUnet보다 성능을 추가로 개선하면서도 효율은 우호적을 유지한다(예: 약 45.3 FPS).
- ISIC 2017 피부 병변 결과에서 TransFuse-S가 강한 지표를 달성한다(예: 백본 사전학습으로 Jaccard/Dice 약 0.795/0.872).
- 별도 연구(Ablation studies)는 BiFusion 모듈과 병렬 가지 설계가 순차 융합 및 간단한 연결 전략 대비 성능 향상에 기여함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.