QUICK REVIEW

[논문 리뷰] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation

Yundong Zhang, Huiye Liu|arXiv (Cornell University)|2021. 02. 16.

Advanced Neural Network Applications참고 문헌 38인용 수 101

한 줄 요약

TransFuse는 저수준 세부 정보와 전역 맥락을 함께 포착하기 위해 BiFusion 융합 모듈이 있는 병렬 CNN과 Transformer 아키텍처를 도입하여 의학 영상 분할에서 매개변수 수가 적고 추론 속도가 빠른 상태-오브-더-아트(SOTA) 결과를 달성합니다.

ABSTRACT

Medical image segmentation - the prerequisite of numerous clinical needs - has been significantly prospered by recent advances in convolutional neural networks (CNNs). However, it exhibits general limitations on modeling explicit long-range relation, and existing cures, resorting to building deep encoders along with aggressive downsampling operations, leads to redundant deepened networks and loss of localized details. Hence, the segmentation task awaits a better solution to improve the efficiency of modeling global contexts while maintaining a strong grasp of low-level details. In this paper, we propose a novel parallel-in-branch architecture, TransFuse, to address this challenge. TransFuse combines Transformers and CNNs in a parallel style, where both global dependency and low-level spatial details can be efficiently captured in a much shallower manner. Besides, a novel fusion technique - BiFusion module is created to efficiently fuse the multi-level features from both branches. Extensive experiments demonstrate that TransFuse achieves the newest state-of-the-art results on both 2D and 3D medical image sets including polyp, skin lesion, hip, and prostate segmentation, with significant parameter decrease and inference speed improvement.

연구 동기 및 목표

의료 영상 분할에서 CNN의 글로벌 컨텍스트 모델링과 로컬 디테일 보존의 한계를 다룬다.
효율적인 특징 융합을 위한 BiFusion 모듈을 가진 병렬 CNN-Transformer 아키텍처(TransFuse)를 제안한다.
BiFusion과 함께 병렬 가지가 더 적은 매개변수와 더 빠른 추론으로 강한 분할 성능을 보임을 보여준다.
다양한 2D/3D 의료 데이터셋(폴립, 피부 병변, 고관절, 전립선)에서 최첨단 결과를 입증한다.

제안 방법

정보를 다르게 처리하는 두 개의 병렬 가지: 로컬 공간 세부 정보를 강조하는 CNN 가지와 글로벌 맥락을 모델링하는 Transformer 가지.
BiFusion 모듈은 채널 및 공간 주의(attention)와 Hadamard 곱을 사용하여 두 가지 가지의 다단계 특징을 융합한다.
주의 기반의 스킵 연결을 통한 후기 융합은 융합된 특징을 집계하여 분할 맵을 생성한다.
손실은 가중 IoU와 가중 이진 교차 엔트로피를 두 가지 가지에 걸친 심층 감독과 함께 결합한다.
변형(TransFuse-S, TransFuse-L, TransFuse-L*)은 서로 다른 백본 선택(CNN+ DeiT/ViT 백본)을 탐구한다.

실험 결과

연구 질문

RQ1매우 깊은 네트워크 없이도 병렬 CNN과 Transformer 가지가 의학 영상 분할에 보완 정보를 포착할 수 있는가?
RQ2BiFusion 모듈이 다단계 CNN과 Transformer 특징을 융합하는 데 얼마나 효과적인가?
RQ3제안된 TransFuse 변형들이 다양한 2D/3D 의료 분할 작업에서 정확도와 효율성을 개선하는가?
RQ4Polyp, 피부 병변, 고관절, 전립선 분할 데이터셋에서 TransFuse의 성능은 어느 정도인가?

주요 결과

TransFuse는 다수의 2D 및 3D 의료 분할 작업(폴립, 피부 병변, 고관절, 전립선)에서 최첨단 성능을 달성한다.
병렬 Transformer 가지를 활용하여 단일 가지 CNN 다운샘플링을 줄이고, 글로벌 맥락을 개선한 더 얕은 전체 모델을 얻는다.
TransFuse-S는 약 26.3M 매개변수로 경쟁력 있거나 우수한 결과를 얻고 추론 속도가 빠르다(예: RTX 2080 Ti에서 98.7 FPS).
TransFuse-L*는 도전적인 폴립 데이터 세트에서 TransUnet보다 성능을 추가로 개선하면서도 효율은 우호적을 유지한다(예: 약 45.3 FPS).
ISIC 2017 피부 병변 결과에서 TransFuse-S가 강한 지표를 달성한다(예: 백본 사전학습으로 Jaccard/Dice 약 0.795/0.872).
별도 연구(Ablation studies)는 BiFusion 모듈과 병렬 가지 설계가 순차 융합 및 간단한 연결 전략 대비 성능 향상에 기여함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.