[論文レビュー] TransAttUnet: Multi-level Attention-guided U-Net with Transformer for Medical Image Segmentation
TransAttUnetはTransformerベースの自己注意機構とグローバル空間注意をU-Netの多尺度スキップ接続と組み合わせ、複数のモダリティに跨る医用画像分割を改善し、最先端のベースラインを上回る。
Accurate segmentation of organs or lesions from medical images is crucial for reliable diagnosis of diseases and organ morphometry. In recent years, convolutional encoder-decoder solutions have achieved substantial progress in the field of automatic medical image segmentation. Due to the inherent bias in the convolution operations, prior models mainly focus on local visual cues formed by the neighboring pixels, but fail to fully model the long-range contextual dependencies. In this paper, we propose a novel Transformer-based Attention Guided Network called TransAttUnet, in which the multi-level guided attention and multi-scale skip connection are designed to jointly enhance the performance of the semantical segmentation architecture. Inspired by Transformer, the self-aware attention (SAA) module with Transformer Self Attention (TSA) and Global Spatial Attention (GSA) is incorporated into TransAttUnet to effectively learn the non-local interactions among encoder features. Moreover, we also use additional multi-scale skip connections between decoder blocks to aggregate the upsampled features with different semantic scales. In this way, the representation ability of multi-scale context information is strengthened to generate discriminative features. Benefitting from these complementary components, the proposed TransAttUnet can effectively alleviate the loss of fine details caused by the stacking of convolution layers and the consecutive sampling operations, finally improving the segmentation quality of medical images. Extensive experiments on multiple medical image segmentation datasets from different imaging modalities demonstrate that the proposed method consistently outperforms the state-of-the-art baselines. Our code and pre-trained models are available at: https://github.com/YishuLiu/TransAttUnet.
研究の動機と目的
- 畳み込みエンコーダの局所的バイアスを解消することで医用画像分割の改善を動機づける。
- Transformerベースの自己認識注意(SAA)モジュールを提案し、Transformer自己注意とグローバル空間注意を組み合わせる。
- マルチスケールのスキップ接続を導入し、マルチスケールデコーダ特徴の統合を改善する。
- 多様な医用画像モダリティにおける手法の有効性を実証する。
- 強力なベースラインとアブレーション研究との公正な比較を提供する。
提案手法
- エンコーダ-デコーダ間のブリッジに自己認識注意(SAA)モジュールを組み込み、TSAとGSAをエンコーダ特徴と融合する。
- トランスフォーマー自己注意(TSA)を用い、マルチヘッド注意と学習可能な位置エンコーディングで長距離依存性をモデル化する。
- グローバル空間注意(GSA)を適用し、位置認識付きチャネル相互作用を介してグローバルな文脈を捉える。
- TSAとGSAの出力を学習可能な加重結合(F_SAA)を介してエンコーダ特徴と融合する。
- デコーダブロック間でマルチスケールのスキップ接続を実装し、残差または密結合を用いて異なる意味レベルの特徴を段階的に統合する。
- ピクセル単位の精度と分割重なりをバランスさせるために、DiceとBCEの結合損失(L = alpha*L_BCE + beta*L_Dice)で訓練する。
実験結果
リサーチクエスチョン
- RQ1Transformerベースの自己注意とグローバル空間注意を組み合わせることでU-Netベースの医用画像分割は改善されるか。
- RQ2マルチスケールのスキップ接続(残差/密結合)は従来のカスケード接続より細部をよりよく保持するか。
- RQ3TransAttUnetは多様なモダリティとデータセットで最先端ベースラインと比較してどう機能するか。
- RQ4SAAモジュールとマルチスケール融合が分割精度と境界の精度に与える影響はどの程度か。
主な発見
| 方法 | 年 | DICE | IoU | ACC | REC | PRE |
|---|---|---|---|---|---|---|
| U-Net | 2015 | 67.40 | 54.90 | - | 70.80 | - |
| Attention U-Net | 2018 | 66.50 | 56.60 | - | 71.70 | - |
| R2U-Net | 2018 | 67.90 | 58.10 | - | 79.20 | - |
| Att R2UNet | 2018 | 69.10 | 59.20 | - | 72.60 | - |
| ResUNet* | 2019 | 79.15 | 70.15 | 92.28 | 82.43 | 84.77 |
| Channel-UNet* | 2019 | 84.82 | 75.92 | 94.10 | 94.01 | 81.04 |
| BCDU-Net | 2019 | 85.10 | - | - | - | - |
| FANet | 2021 | 87.31 | 80.23 | - | 86.50 | 92.35 |
| PraNet* | 2021 | 87.46 | 80.23 | 95.37 | 91.28 | 87.59 |
| DoubleU-Net | 2020 | 89.62 | 82.12 | - | 87.80 | 94.59 |
| Swin-Unet* | 2021 | 89.72 | 82.90 | - | 90.32 | 92.04 |
| SegFormer* | 2021 | 90.24 | 83.60 | - | 91.12 | 92.10 |
| MCTrans | 2021 | 90.35 | - | - | - | - |
| TransAttUnet_C | - | 89.25 | 81.46 | 95.06 | 89.90 | 91.59 |
| TransAttUnet_D | - | 90.14 | 83.04 | 96.14 | 90.42 | 92.17 |
| TransAttUnet_R | - | 90.74 | 83.80 | 96.38 | 90.93 | 92.42 |
- TransAttUnetのバリエーションは複数データセットでベースラインのU-Netやいくつかのベースラインを上回る。
- TransAttUnet_R(密スキップ接続)はISIC-2018で最高のDiceスコアを達成(90.74%)。
- Transformer自己注意(TSA)とグローバル空間注意(GSA)は単独より組み合わせた場合に文脈モデリングをより改善する。
- マルチスケールのスキップ接続(残差または密結合)は一度きりのカスケード接続より特徴の統合を改善し、細部の喪失を緩和する。
- ISIC-2018のMCTransと比較して、TransAttUnet_RはDiceの改善を示す(90.74%対90.35%)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。