Skip to main content
QUICK REVIEW

[論文レビュー] TransResU-Net: Transformer based ResU-Net for Real-Time Colonoscopy Polyp Segmentation

Nikhil Kumar Tomar, Annie Shergill|arXiv (Cornell University)|Jun 17, 2022
Colorectal Cancer Screening and Detection被引用数 26
ひとこと要約

TransResU-Net は ResNet50 ベースのエンコーダ、トランスフォーマー自己注意、拡張畳み込みを組み合わせてリアルタイムのポリップセグメンテーションを実現し、公開データセット上でいくつかのベースラインを上回る。

ABSTRACT

Colorectal cancer (CRC) is one of the most common causes of cancer and cancer-related mortality worldwide. Performing colon cancer screening in a timely fashion is the key to early detection. Colonoscopy is the primary modality used to diagnose colon cancer. However, the miss rate of polyps, adenomas and advanced adenomas remains significantly high. Early detection of polyps at the precancerous stage can help reduce the mortality rate and the economic burden associated with colorectal cancer. Deep learning-based computer-aided diagnosis (CADx) system may help gastroenterologists to identify polyps that may otherwise be missed, thereby improving the polyp detection rate. Additionally, CADx system could prove to be a cost-effective system that improves long-term colorectal cancer prevention. In this study, we proposed a deep learning-based architecture for automatic polyp segmentation, called Transformer ResU-Net (TransResU-Net). Our proposed architecture is built upon residual blocks with ResNet-50 as the backbone and takes the advantage of transformer self-attention mechanism as well as dilated convolution(s). Our experimental results on two publicly available polyp segmentation benchmark datasets showed that TransResU-Net obtained a highly promising dice score and a real-time speed. With high efficacy in our performance metrics, we concluded that TransResU-Net could be a strong benchmark for building a real-time polyp detection system for the early diagnosis, treatment, and prevention of colorectal cancer. The source code of the proposed TransResU-Net is publicly available at https://github.com/nikhilroxtomar/TransResUNet.

研究の動機と目的

  • 自動化されたリアルタイムのポリップセグメンテーションを動機づけ、早期の大腸癌検出を支援する。
  • Transformer エンコーダーブロックと ResNet50 ベースの Residual U‑Net および拡張畳み込みを統合する新規アーキテクチャを提案する。
  • 公衆データセット(Kvasir-SEG、BKAI-IGH)上で TransResU-Net を複数のポリップセグメンテーションのベースラインと比較する。
  • 臨床 CADx 展開を想定したリアルタイム性能を示す。

提案手法

  • 事前学習済み ResNet50 エンコーダを用いたエンコーダ-デコーダ設計。
  • 長距離依存性を学習するためのトランスフォーマーエンコーダーブロックの組み込み。
  • 4 つの拡張率(1, 3, 6, 9)を持つ並列拡張畳み込みブロックを追加し、1x1 conv で特徴を融合。
  • トランスフォーマーと拡張畳み込みの特徴を連結し、スキップ接続を備えた2 つのResidualデコーダブロックを適用。
  • 最終の 1x1 conv と sigmoid により二値セグメンテーションマスクを生成。

実験結果

リサーチクエスチョン

  • RQ1Transformer で補強した ResU-Net はリアルタイム速度を維持しつつポリップセグメンテーションの精度を向上させられるか。
  • RQ2Transformer と拡張畳み込みは、標準の ResU-Net に対して結腸鏡ポリップで補完的な利得をもたらすか。
  • RQ3TransResU-Net は公衆ポリップセグメンテーションデータセットで既存のベースラインと比較してどの程度の性能か。
  • RQ4臨床現場でのリアルタイム CADx 展開に本モデルは適しているか。

主な発見

  • Kvasir-SEG で、TransResU-Net は DSC 0.8884、mIoU 0.8214、recall 0.9106、precision 0.9022、accuracy 0.9651、F2 0.8971、FPS 48.61 を達成。
  • BKAI-IGH で、TransResU-Net は DSC 0.9154、mIoU 0.8568、recall 0.9142、precision 0.9299、accuracy 0.9938、F2 0.9129 を達成、FPS は 42.09。
  • アブレーションでは、Transformer および Dilated ブロックを除くと Kvasir-SEG 上で DSC が 2.05 ポイント、mIoU が 2.35 ポイント低下することを示し、フルモデルは再現率/適合度を改善。
  • TransResU-Net は DeepLabV3+(ResNet50)より Kvasir-SEG で DSC が 0.47%、mIoU が 0.41%、 BKAI-IGH で DSC が 2.17%、mIoU が 2.54% 上回る。
  • 定性的な結果は、TransResU-Net が境界の正確な描写をより得られ、特に小型・平坦なポリップに対して有利であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。