[論文レビュー] BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation
BEFUnet は、Local Cross-Attention Fusion と Double-Level Fusion モジュールを介して、エッジ中心の CNN エンコードとボディ中心の Swin Transformer エンコードを統合し、複数のデータセットにわたる医用画像セグメンテーション性能を向上させます。
The accurate segmentation of medical images is critical for various healthcare applications. Convolutional neural networks (CNNs), especially Fully Convolutional Networks (FCNs) like U-Net, have shown remarkable success in medical image segmentation tasks. However, they have limitations in capturing global context and long-range relations, especially for objects with significant variations in shape, scale, and texture. While transformers have achieved state-of-the-art results in natural language processing and image recognition, they face challenges in medical image segmentation due to image locality and translational invariance issues. To address these challenges, this paper proposes an innovative U-shaped network called BEFUnet, which enhances the fusion of body and edge information for precise medical image segmentation. The BEFUnet comprises three main modules, including a novel Local Cross-Attention Feature (LCAF) fusion module, a novel Double-Level Fusion (DLF) module, and dual-branch encoder. The dual-branch encoder consists of an edge encoder and a body encoder. The edge encoder employs PDC blocks for effective edge information extraction, while the body encoder uses the Swin Transformer to capture semantic information with global attention. The LCAF module efficiently fuses edge and body features by selectively performing local cross-attention on features that are spatially close between the two modalities. This local approach significantly reduces computational complexity compared to global cross-attention while ensuring accurate feature matching. BEFUnet demonstrates superior performance over existing methods across various evaluation metrics on medical image segmentation datasets.
研究の動機と目的
- 医用画像分割における CNN および純粋な Transformer の限界を動機づけ、特にエッジとグローバル文脈に関してそれらを克服する。
- エッジとボディ特徴を同時に捉えるデュアルブランチエンコーダを提案する。
- 局所的クロスアテンションを用いてクロスモーダル特徴を効率的に融合する Local Cross-Attention Fusion (LCAF) を導入する。
- スケールを跨いで粗い特徴と細粒度特徴を統合する Double-Level Fusion (DLF) モジュールを開発する。
- 複数の医用画像データセットにおいて優れたセグメンテーション性能を実証する。
提案手法
- Pixel Different Convolution (PDC) ブロックを用いた CNN ベースのエッジエンコーダと、Swin Transformer ボディエンコーダを組み合わせたデュアルブランチエンコーダを備えた BEFUnet を提案する。
- 局所的なクロスアテンションを用いてエッジ特徴とボディ特徴を融合する Local Cross-Attention Fusion (LCAF) を導入し、グローバルなクロスアテンションと比較して計算量を低減する。
- 最小レベルと最大レベルの特徴をクロスアテンションとクラス・トークンに基づく相互作用で融合する Double-Level Fusion (DLF) モジュールを実装する。
- エッジとボディの2つの損失成分で学習する:エッジ監督損失とボディ監督損失(Binary Cross-Entropy + Dice Loss)。
- 最終損失 L = L_body + gamma * L_edge を用いて両方のブランチを最適化する。

実験結果
リサーチクエスチョン
- RQ1エッジとボディの意味論を別々にモデル化するデュアルブランチエンコーダは、単一ブランチの CNN や Transformer モデルよりもセグメンテーション精度を向上させることができるか。
- RQ2局所的クロスアテンション融合は、精度を維持しつつ計算量を削減しつつ、クロスモーダル特徴を効率的に融合できるか。
- RQ3Double-Level Fusion モジュールはマルチスケール特徴を効果的に統合してセグメンテーション性能を向上させることができるか。
- RQ4先端手法と比較した場合、BEFUnet は多様な医用画像データセットでどの程度の性能向上を達成するか。
主な発見
| 手法 | DSC | HD | 大動脈 | 胆嚢 | 左腎 | 右腎 | 肝臓 | 膵臓 | 脾臓 | 胃 |
|---|---|---|---|---|---|---|---|---|---|---|
| BEFUnet | 80.47 | 16.26 | 87.03 | 73.89 | 85.23 | 80.47 | 95.49 | 60.31 | 91.56 | 81.54 |
- BEFUnet は Synapse で DSC 80.47 および HD 16.26 で優れたセグメンテーション性能を達成し、いくつかの SOTA 手法を上回った。
- SegPC データセットでは BEFUnet が 95.1% の精度と 0.871 の F1 スコアを達成し、複数のベースラインを上回った。
- ISIC 2017 の皮膚病変分割では、BEFUnet が最高の Dice 0.868、SE 0.853、SP 0.985、ACC 0.946、IoU 0.768 を達成。
- BEFUnet は PDC ブロックを備えたエッジエンコーダのおかげでエッジ分割能力が強く、境界予測を改善する。
- アブレーション結果(Table 4 参照)は、エッジとボディのブランチおよびフュージョンモジュールの貢献が全体の性能に影響することを示している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。