Skip to main content
QUICK REVIEW

[論文レビュー] CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation

Yutong Xie, Jianpeng Zhang|arXiv (Cornell University)|Mar 4, 2021
Advanced Neural Network Applications参考文献 28被引用数 56
ひとこと要約

CoTrはCNNエンコーダと可変形Transformerを組み合わせて長距離の文脈を効率的にモデル化し、3D医用画像のセグメンテーションで、BCVの11臓器セグメンテーションにおいて最先端の性能を達成しつつ高解像度マルチスケール特徴を扱う。

ABSTRACT

Convolutional neural networks (CNNs) have been the de facto standard for nowadays 3D medical image segmentation. The convolutional operations used in these networks, however, inevitably have limitations in modeling the long-range dependency due to their inductive bias of locality and weight sharing. Although Transformer was born to address this issue, it suffers from extreme computational and spatial complexities in processing high-resolution 3D feature maps. In this paper, we propose a novel framework that efficiently bridges a {\bf Co}nvolutional neural network and a {\bf Tr}ansformer {\bf (CoTr)} for accurate 3D medical image segmentation. Under this framework, the CNN is constructed to extract feature representations and an efficient deformable Transformer (DeTrans) is built to model the long-range dependency on the extracted feature maps. Different from the vanilla Transformer which treats all image positions equally, our DeTrans pays attention only to a small set of key positions by introducing the deformable self-attention mechanism. Thus, the computational and spatial complexities of DeTrans have been greatly reduced, making it possible to process the multi-scale and high-resolution feature maps, which are usually of paramount importance for image segmentation. We conduct an extensive evaluation on the Multi-Atlas Labeling Beyond the Cranial Vault (BCV) dataset that covers 11 major human organs. The results indicate that our CoTr leads to a substantial performance improvement over other CNN-based, transformer-based, and hybrid methods on the 3D multi-organ segmentation task. Code is available at \def\UrlFont{ m\small tfamily} \url{https://github.com/YtongXie/CoTr}

研究の動機と目的

  • 3D医用画像セグメンテーションのために、CNNの局所的帰納的バイアスとTransformerを橋渡しする動機づけ。
  • マルチスケール特徴マップ上の長距離依存をモデル化する、効率的な可変形Transformer(DeTrans)を開発する。
  • グローバルな文脈を捉えつつ高解像度の詳細を保持する、CNNエンコーダ–DeTrans-エンコーダ–デコーダアーキテクチャを設計する。
  • BCVデータセット上でCNNベース、Transformerベース、その他のハイブリッド手法と比較してセグメンテーション性能の向上を示す。

提案手法

  • CNNエンコーダを用いてマルチスケールの3D特徴マップを抽出する。
  • マルチスケールの可変形自己注意機構を備えたDeTrans-エンコーダを導入し、長距離依存を効率的に捉える。
  • CNN特徴を3D位置エンコーディングでフラット化し、DeTrans層で処理する。
  • 複数頭の可変形自己注意を、制限付きサンプリングポイントで適用し計算量を削減する。
  • スキップ接続と深層監視を備えたCNNベースのデコーダを用いてDeTrans出力を融合する。
  • Dice損失とクロスエントロピー損失を組み合わせて最適化し、データ拡張とインスタンス正規化を採用する。

実験結果

リサーチクエスチョン

  • RQ1可変形自己注意を付与した軽量なハイブリッドCNN–Transformerエンコーダは、3D医用画像セグメンテーションにおいて純粋なCNNや純粋なTransformerよりも優れているだろうか?
  • RQ2マルチスケールの可変形自己注意は、高解像度の3D特徴マップ上で効果的な長距離モデリングを可能にするか?
  • RQ3DeTransのハイパーパラメータとマルチスケール特徴の統合がセグメンテーション性能に与える影響は何か?
  • RQ4BCVの多臓器セグメンテーションタスクにおける、既存のCNN・Transformer・ハイブリッド法と比較してCoTrはどうか?

主な発見

MethodsParam (M)OrgansAveSpKiGbEsLiStAoIVCPSVPaAG
SETR (ViT-B/16-rand)100.595.292.355.671.396.280.289.783.968.968.760.578.4
SETR (ViT-B/16-pre)100.594.891.755.270.996.276.989.382.469.670.758.777.8
CoTr w/o CNN-encoder21.995.292.859.272.296.381.289.985.171.973.361.079.8
CoTr w/o DeTrans32.696.092.663.877.997.083.690.887.876.781.272.683.6
APSS45.596.593.865.678.197.184.091.187.977.082.673.984.3
PP33.996.193.164.377.497.085.390.887.477.281.972.883.9
Non-local32.896.393.764.677.997.184.190.887.777.282.173.384.1
TransUnet43.595.993.763.177.897.086.291.087.877.881.673.984.2
CoTr ∗27.996.494.066.276.497.084.290.387.676.380.872.983.8
CoTr †36.996.293.866.578.697.186.990.887.877.782.873.284.7
CoTr41.996.393.966.678.097.188.291.288.078.183.174.185.0
  • CoTrはBCVの3D多臓器セグメンテーションでCNNのみ、Transformerのみ、他のハイブリッドのベースラインを上回る。
  • 可変形自己注意を用いたCoTrは、計算および空間的複雑性を低減しつつマルチスケールの高解像度特徴マップの処理を可能にする。
  • 小さめのCNNエンコーダを用いたCoTrの変種(CoTr ∗、CoTr †)は強い結果を達成し、純粋なTransformerベースのエンコーダよりもハイブリッドエンコーダの利点を示している。
  • DeTransを従来のコンテキストモジュール(ASPP、PP、Non-local)に置換するとDiceスコアが低下し、可変形Transformerの利点を際立たせる。
  • CoTrは11臓器全体で平均Diceを一貫して改善し、胆嚢と膵臓で特に顕著で、3D設定でTransUNetと競合または上回る性能を達成する。
  • 学習時間と推論時間の効率性: GTX 2080Tiで約2日、推論は48×192×192体積あたり30 ms未満。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。