[論文レビュー] MSA$^2$Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation
MSA2NetはMASAGを導入し、ハイブリッドCNN-Transformerフレームワーク内のマルチスケール適応空間注意ゲートを用いてエンコーダ-デコーダ特徴を統合し、正確な医用画像分割を実現。SynapseとISIC2018データセットで最先端の結果を達成。
Medical image segmentation involves identifying and separating object instances in a medical image to delineate various tissues and structures, a task complicated by the significant variations in size, shape, and density of these features. Convolutional neural networks (CNNs) have traditionally been used for this task but have limitations in capturing long-range dependencies. Transformers, equipped with self-attention mechanisms, aim to address this problem. However, in medical image segmentation it is beneficial to merge both local and global features to effectively integrate feature maps across various scales, capturing both detailed features and broader semantic elements for dealing with variations in structures. In this paper, we introduce MSA$^2$Net, a new deep segmentation framework featuring an expedient design of skip-connections. These connections facilitate feature fusion by dynamically weighting and combining coarse-grained encoder features with fine-grained decoder feature maps. Specifically, we propose a Multi-Scale Adaptive Spatial Attention Gate (MASAG), which dynamically adjusts the receptive field (Local and Global contextual information) to ensure that spatially relevant features are selectively highlighted while minimizing background distractions. Extensive evaluations involving dermatology, and radiological datasets demonstrate that our MSA$^2$Net outperforms state-of-the-art (SOTA) works or matches their performance. The source code is publicly available at https://github.com/xmindflow/MSA-2Net.
研究の動機と目的
- 医用画像における臓器サイズ・形状・密度のばらつきに対処する。
- エンコーダとデコーダ間の適応的スキップ接続を介して局所とグローバル特徴を統合する。
- 受容野を動的に再調整し、空間的に関連する特徴を強調するモジュール(MASAG)を開発する。
- 境界認識lossを用いてSynapseの多臓器データセットとISIC2018データセットでアプローチを検証する。
提案手法
- MASAG(Multi-Scale Adaptive Spatial Attention Gate)を提案し、動的受容野でエンコーダとデコーダの特徴を融合する。
- 浅い層はLarge Kernel Attention(LKA)、深い層はDual Attention Enhanced Transformer(DAE-Former)ブロックを用いるハイブリッドデコーダを採用する。
- Local Context ExtractionとGlobal Context Extractionを組み合わせたマルチスケール特徴融合を実装する。
- 空間選択・空間相互作用・クロス-モジュレーション・再校正を組み込み、特徴マップを正確なセグメンテーションへと洗練させる。
- 前処理済み重みを持つMaxViTベースのエンコーダと境界 delineationのためのBoundary-aware BDoU lossを採用する。
- Synapse(multi-organ CT)とISIC2018(skin lesion)データセットで評価する。

実験結果
リサーチクエスチョン
- RQ1MASAGは異なるスケールのオブジェクトに対して受容野を動的に再調整し、セグメンテーションを改善できるか。
- RQ2MASAGを含むハイブリッドエンコーダ-デコーダは医用画像分割において最先端のCNN-Transformerモデルを上回るか。
- RQ3局所およびグローバルコンテクストの統合と適応的スキップ接続が、境界の精度と全体のDSC/HD95指標にどう影響するか。
- RQ4放射線診断および皮膚科の画像モダリティを跨いでアプローチはロバストか。
主な発見
| 方法 | パラメータ (M) | FLOPs (G) | 分割 | R識別 | L識別 | Gal. | Liv. | Sto. | Aor. | Pan. | 平均 | DSC ↑ | HD95 ↓ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TransUNet [ Chen et al.(2021) ] | 96.07 | 88.91 | 85.08 | 77.02 | 81.87 | 63.16 | 94.08 | 75.62 | 87.23 | 55.86 | 77.49 | 31.69 | |
| Swin-UNet [ Cao et al.(2022) ] | 27.17 | 6.16 | 90.66 | 79.61 | 83.28 | 66.53 | 94.29 | 76.60 | 85.47 | 56.58 | 79.13 | 21.55 | |
| MISSFormer [ Huang et al.(2021) ] | 42.46 | 9.89 | 91.92 | 82.00 | 85.21 | 68.65 | 94.41 | 80.81 | 86.99 | 65.67 | 81.96 | 18.20 | |
| ScaleFormer [ Huang et al.(2022) ] | 111.6 | 48.93 | 89.40 | 83.31 | 86.36 | 74.97 | 95.12 | 80.14 | 88.73 | 64.85 | 82.86 | 16.81 | |
| HiFormer-B [ Heidari et al.(2023) ] | 25.51 | 8.045 | 90.99 | 79.77 | 85.23 | 65.23 | 94.61 | 81.08 | 86.21 | 59.52 | 80.39 | 14.70 | |
| DAEFormer [ Azad et al.(2023a) ] | 48.07 | 27.89 | 91.82 | 82.39 | 87.66 | 71.65 | 95.08 | 80.77 | 87.84 | 63.93 | 82.63 | 16.39 | |
| 2D D-LKA Net [ Azad et al.(2023b) ] | 101.64 | 19.92 | 91.22 | 84.92 | 88.38 | 73.79 | 94.88 | 84.94 | 88.34 | 67.71 | 84.27 | 20.04 | |
| MSA${}^{2}$ Net (Ours) | 112.77 | 15.56 | 92.69 | 84.24 | 88.30 | 74.35 | 95.59 | 84.03 | 89.47 | 69.30 | 84.75 | 13.29 |
- MSA2NetはSynapseデータセットでDSC 84.75、HD95 13.29を達成し、いくつかのSOTAベースラインを上回る。
- ISIC2018ではMSA2NetがDSC 0.9129、SE 0.8840、SP 0.9557、ACC 0.9640を達成し、複数の従来手法を上回る。
- アブレーション研究により、MASAG、LKA、DAE-Formerを様々な構成で含めると逐次的な改善が見られ、三要素を組み合わせるとDice/HD95のトレードオフが最良になる。
- MSA2NetはSynapseの膵臓・大動脈のセグメンテーションで顕著な改善を示し、小さな臓器と大きな臓器の両方に対する動的受容野再調整の利点を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。