Skip to main content
QUICK REVIEW

[論文レビュー] nnFormer: Interleaved Transformer for Volumetric Segmentation

Hong-Yu Zhou, Jiansen Guo|arXiv (Cornell University)|Sep 7, 2021
Radiomics and Machine Learning in Medical Imaging参考文献 40被引用数 261
ひとこと要約

nnFormer は volumetric medical image segmentation のための 3D トランスフォーマーで、畳み込みと自己注意を interleave(交互に配置)し、局所およびグローバルな volume-based self-attention を使用し、skip attention を導入して複数データセットで nnUNet を上回る。

ABSTRACT

Transformer, the model of choice for natural language processing, has drawn scant attention from the medical imaging community. Given the ability to exploit long-term dependencies, transformers are promising to help atypical convolutional neural networks to overcome their inherent shortcomings of spatial inductive bias. However, most of recently proposed transformer-based segmentation approaches simply treated transformers as assisted modules to help encode global context into convolutional representations. To address this issue, we introduce nnFormer, a 3D transformer for volumetric medical image segmentation. nnFormer not only exploits the combination of interleaved convolution and self-attention operations, but also introduces local and global volume-based self-attention mechanism to learn volume representations. Moreover, nnFormer proposes to use skip attention to replace the traditional concatenation/summation operations in skip connections in U-Net like architecture. Experiments show that nnFormer significantly outperforms previous transformer-based counterparts by large margins on three public datasets. Compared to nnUNet, nnFormer produces significantly lower HD95 and comparable DSC results. Furthermore, we show that nnFormer and nnUNet are highly complementary to each other in model ensembling.

研究の動機と目的

  • 長距離依存関係を局所的な畳み込みバイアスを超えて捉えるために、 volumetric medical image segmentation にトランスフォーマーの利用を動機付ける。
  • 空間的な精度と階層的表現を保つため、畳み込みの埋め込みとトランスフォーマーブロックを interleave するハイブリッドな stem を開発する。
  • 効率と受容野のバランスを取るため、局所ボリュームベースの self-attention(LV-MSA)とグローバルボリュームベースの self-attention(GV-MSA)を提案する。
  • U-Net のようなアーキテクチャにおけるスキップ接続を改善するために skip attention を導入する。
  • nnFormer がトランスフォーマーをベースとしたベースラインより優れた分割性能を達成し、モデルアンサンブルで nnUNet を補完することを示す。

提案手法

  • 軽量な畳み込み埋め込み層で 3D 医用画像を埋め込み、画素レベルの空間情報を保持する。
  • LV-MSA(局所 3D 自己注意)と畳み込みダウンサンプリングを組み合わせた交互エンコーダブロックを用いて多スケール特徴を構築する。
  • ボトルネックで GV-MSA を使用し、計算を抑えつつ広い受容野を提供する。
  • アップサンプリングとスキップ注意を用いた対称的な構造でデコーダをデコードし、エンコーダとデコーダの特徴を統合する。
  • 伝統的なスキップ接続を skip attention に置換して、エンコーダとデコーダ間の情報フローを改善する。
  • 複数のデコーダステージで深層監視と複数解像度にまたがるジョイント損失で学習する。

実験結果

リサーチクエスチョン

  • RQ13D トランスフォーマーが畳み込みと自己注意を交互に組み合わせたブロックを持つ場合、純粋なCNNベースモデルや標準的なトランスフォーマーベースモデルより volumetric segmentation が改善されるか?
  • RQ2局所およびグローバル volume-based self-attention(LV-MSA と GV-MSA)は、マルチスケールの volumetric 表現を学習する際に相補的な利点を提供するか?
  • RQ33D セグメンテーションのための U-Net のようなアーキテクチャにおいて skip attention は情報伝達を向上させるか?
  • RQ4nnFormer は brain tumor、multi-organ、cardiac segmentation タスクで nnUNet および他のトランスフォーマーベースモデルとどのように比較されるか?

主な発見

  • nnFormer は 3 つの公開データセットで従来のトランスフォーマーベース手法より大幅に改善した。
  • nnUNet と比較して、nnFormer は HD95 が低く、DSC は同等またはより良い。
  • nnFormer と nnUNet の組み合わせは平均アンサンブルで補完的な改善をもたらす。
  • アブレーション研究は、 interleaved conv+transformer stems、LV-MSA/GV-MSA、skip attention の導入が分割性能を改善することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。