Skip to main content
QUICK REVIEW

[논문 리뷰] TransResU-Net: Transformer based ResU-Net for Real-Time Colonoscopy Polyp Segmentation

Nikhil Kumar Tomar, Annie Shergill|arXiv (Cornell University)|2022. 06. 17.
Colorectal Cancer Screening and Detection인용 수 26
한 줄 요약

TransResU-Net은 ResNet50 기반 인코더, transformer 자기 주의, 그리고 확장된 합성(convolution)들을 결합하여 실시간 용종 분할을 달성하고 공개 데이터셋에서 다수의 베이스라인을 능가합니다.

ABSTRACT

Colorectal cancer (CRC) is one of the most common causes of cancer and cancer-related mortality worldwide. Performing colon cancer screening in a timely fashion is the key to early detection. Colonoscopy is the primary modality used to diagnose colon cancer. However, the miss rate of polyps, adenomas and advanced adenomas remains significantly high. Early detection of polyps at the precancerous stage can help reduce the mortality rate and the economic burden associated with colorectal cancer. Deep learning-based computer-aided diagnosis (CADx) system may help gastroenterologists to identify polyps that may otherwise be missed, thereby improving the polyp detection rate. Additionally, CADx system could prove to be a cost-effective system that improves long-term colorectal cancer prevention. In this study, we proposed a deep learning-based architecture for automatic polyp segmentation, called Transformer ResU-Net (TransResU-Net). Our proposed architecture is built upon residual blocks with ResNet-50 as the backbone and takes the advantage of transformer self-attention mechanism as well as dilated convolution(s). Our experimental results on two publicly available polyp segmentation benchmark datasets showed that TransResU-Net obtained a highly promising dice score and a real-time speed. With high efficacy in our performance metrics, we concluded that TransResU-Net could be a strong benchmark for building a real-time polyp detection system for the early diagnosis, treatment, and prevention of colorectal cancer. The source code of the proposed TransResU-Net is publicly available at https://github.com/nikhilroxtomar/TransResUNet.

연구 동기 및 목표

  • 자동화된, 실시간 용종 분할을 통해 조기 대장암 탐지 보조를 목표로 함.
  • 트랜스포머 인코더 블록을 ResNet50 기반 Residual U-Net과 확장 합성(convolution)을 융합하는 새로운 아키텍처를 제안.
  • 공개 데이터셋(Kvasir-SEG, BKAI-IGH)에서 TransResU-Net을 다수의 용종 분할 베이스라인과 벤치마크.
  • 실시간 성능을 입증하여 임상 CADx 적용 가능성 탐색.

제안 방법

  • 프리트레이닝된 ResNet50 인코더를 갖춘 인코더-디코더 설계.
  • 긴 거리 의존성을 학습하기 위한 트랜스포머 인코더 블록의 도입.
  • 4개의 dilation 비율(1, 3, 6, 9)을 가진 평행 확장 합성 블록과 이를 1x1 컨볼루션으로 특징 융합.
  • 트랜스포머와 확장 특성의 연결 및 스킵 연결이 있는 두 개의 잔차 디코더 블록 사용.
  • 마지막 1x1 컨볼루션과 시그모이드를 통해 이진 분할 마스크를 생성.

실험 결과

연구 질문

  • RQ1트랜스포머 보강된 ResU-Net이 실시간 속도를 유지하면서 용종 분할 정확도를 향상시킬 수 있는가?
  • RQ2트랜스포머와 확장 합성이 표준 ResU-Net 대비 대장내시경 용종에서 보완적 이득을 제공하는가?
  • RQ3TransResU-Net이 공개 용종 분할 데이터셋에서 기존 베이스라인에 비해 어떤 성능을 보이는가?
  • RQ4임상 CADx 배치에 실시간으로 사용 가능할 정도의 모델인가?

주요 결과

  • Kvasir-SEG에서 TransResU-Net은 DSC 0.8884, mIoU 0.8214, 재현율 0.9106, 정밀도 0.9022, 정확도 0.9651, F2 0.8971, FPS 48.61에서 달성.
  • BKAI-IGH에서 TransResU-Net은 DSC 0.9154, mIoU 0.8568, 재현율 0.9142, 정밀도 0.9299, 정확도 0.9938, F2 0.9129, FPS 42.09에서 달성.
  • 특성 제거(Transformer 및 Dilated 블록 제거) 시 Kvasir-SEG에서 DSC가 2.05% 포인트 감소, mIoU가 2.35% 포인트 감소; 전체 모델이 더 나은 재현/정밀도를 보임.
  • TransResU-Net은 Kvasir-SEG에서 DeepLabV3+ (ResNet50) 대비 DSC 0.47% 포인트, mIoU 0.41% 포인트, BKAI-IGH 대비 DSC 2.17% 포인트, mIoU 2.54% 포인트 우수.
  • 정성적 결과는 TransResU-Net이 경계 선 delineation을 더 정확하게 하며, 특히 작은 크기이거나 평평한 용종에서 더 우수한 경계 구분을 보임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.