Skip to main content
QUICK REVIEW

[論文レビュー] D-Net: Dynamic Large Kernel with Dynamic Feature Fusion for Volumetric Medical Image Segmentation

Jin Yang, Peijie Qiu|arXiv (Cornell University)|Mar 15, 2024
Medical Image Segmentation Techniques被引用数 8
ひとこと要約

D-NetはDynamic Large Kernel (DLK)とDynamic Feature Fusion (DFF)を階層型トランスフォーマに統合し、いくつかのベースラインよりもパラメータ数とFLOPsを抑えつつ、多スケールでグローバルに情報を取り込む3D医療画像分割を実現します。

ABSTRACT

Hierarchical transformers have achieved significant success in medical image segmentation due to their large receptive field and capabilities of effectively leveraging global long-range contextual information. Convolutional neural networks (CNNs) can also deliver a large receptive field by using large kernels, enabling them to achieve competitive performance with fewer model parameters. However, CNNs incorporated with large convolutional kernels remain constrained in adaptively capturing multi-scale features from organs with large variations in shape and size due to the employment of fixed-sized kernels. Additionally, they are unable to utilize global contextual information efficiently. To address these limitations, we propose Dynamic Large Kernel (DLK) and Dynamic Feature Fusion (DFF) modules. The DLK module employs multiple large kernels with varying kernel sizes and dilation rates to capture multi-scale features. Subsequently, a dynamic selection mechanism is utilized to adaptively highlight the most important spatial features based on global information. Additionally, the DFF module is proposed to adaptively fuse multi-scale local feature maps based on their global information. We integrate DLK and DFF in a hierarchical transformer architecture to develop a novel architecture, termed D-Net. D-Net is able to effectively utilize a multi-scale large receptive field and adaptively harness global contextual information. Extensive experimental results demonstrate that D-Net outperforms other state-of-the-art models in the two volumetric segmentation tasks, including abdominal multi-organ segmentation and multi-modality brain tumor segmentation. Our code is available at https://github.com/sotiraslab/DLK.

研究の動機と目的

  • Adaptive large kernelsを用いてマルチスケール文脈を捉え、3D体積分割の改善を目指す。
  • 大きな形状・サイズの変動を持つ臓器に対するCNNの固定カーネルの制約を克服する。
  • グローバルな文脈情報を活用して情報量の多い空間特徴を選択的に強調する。

提案手法

  • Dynamic Large Kernel (DLK)を、階層的に深さ方向へ広がるカスケード畳み込み(例:5x5x5および7x7x7、拡張)として導入し受容野を拡張する。
  • 空間ごとのダイナミック選択機構を適用してグローバル文脈を用いDLK出力を適応的に重み付けする。
  • Dynamic Feature Fusion (DFF)を提案し、グローバル情報に guided されたチャンネル-wiseおよび空間-wise ダイナミック選択を通じてマルチスケール局所特徴を適応的に融合する。
  • DLKとDFFを階層型トランスフォーマー主幹に組み込み、ステージごとに二つのDLKブロックを持つEncoder–Bottleneck–Decoderアーキテクチャを採用する。
  • サリエンス層を用いて意味的に重要な空間特徴を抽出・デコーダ特徴と融合し最終的なボクセル-wise分割を実現する。
  • Dice lossとCross-Entropy lossの組み合わせで訓練し、AdamWまたはSGDと標準的な学習率スケジュールを用いる。
Figure 1: The architecture of the DLK. Feature maps $\boldsymbol{X}_{1}^{l}$ and $\boldsymbol{X}_{2}^{l}$ are extracted by $5\times 5\times 5$ DWConv and $7\times 7\times 7$ DWConv from input features $\boldsymbol{X}^{l}$ , respectively. The dynamic selection values $w_{1}$ and $w_{2}$ are generated
Figure 1: The architecture of the DLK. Feature maps $\boldsymbol{X}_{1}^{l}$ and $\boldsymbol{X}_{2}^{l}$ are extracted by $5\times 5\times 5$ DWConv and $7\times 7\times 7$ DWConv from input features $\boldsymbol{X}^{l}$ , respectively. The dynamic selection values $w_{1}$ and $w_{2}$ are generated

実験結果

リサーチクエスチョン

  • RQ1動的でマルチスケールな大カーネルアプローチは、固定大カーネルCNNや純粋なトランスフォーマーベースのバックボーンより3D体積分割を改善できるか?
  • RQ2グローバル情報を活用したダイナミック特徴フュージョンは、3D医療画像におけるマルチスケール局所特徴の統合を強化するか?
  • RQ3D-Netは腹部の多臓器分割および脳腫瘍分割で、最先端手法と比較してどうか?

主な発見

タスク3D UNetTransBTSUNETRnnFormerUX-NetDLK-NetD-Net平均パラメータFLOPs
Spleen95.8695.5195.1489.4496.6596.3796.74
R. kidney95.8995.2895.4688.1296.2296.2596.31
L. kidney96.0895.2294.7286.8996.0396.0996.17
Gall bladder83.2182.3376.9069.2082.6083.8984.08
Esophagus81.8080.0077.5358.9280.9882.1982.30
Liver97.2796.7996.6494.1497.0397.3197.59
Stomach87.9688.1885.2775.3687.7888.6793.51
Aorta93.7893.3892.7685.7793.9994.4195.19
Postcava88.7588.6685.7675.0388.9289.8591.28
Pancreas84.2882.1180.6566.7484.1285.9986.16
R. adrenal gland76.0272.5072.6455.4174.5078.1679.60
L. adrenal gland74.4370.7468.3047.9173.1777.3378.49
Duodenum77.9076.1069.7653.8577.6880.4681.12
Bladder90.2388.9685.3574.0791.1490.7391.40
Prostate83.8780.6981.2255.5179.7584.9485.23
R. adrenal gland74.4370.7468.3047.9173.1777.3378.49
L. adrenal gland74.4370.7468.3047.9173.1777.3378.49
Duodenum77.9076.1069.7653.8577.6880.4681.12
Avg87.1685.7683.8771.7686.7088.1889.01
Params ↓107.71M31.58M92.78M149.33M53.01M29.17M29.96M
FLOPs ↓1046.39G110.71G82.73G284.28G632.33G47.14G236.90G
  • D-NetはAMOS 2022の腹部多臓器分割タスクにおいて、検証ベースラインの中で最も総合的な性能を達成し、モデル複雑性も競争力を保つ。
  • D-NetはMSD BraTS脳腫瘍分割において前景領域すべて(ET, ED, NET)および平均Diceスコアでベースラインを上回る。
  • サリエンス層を除去し、より単純なフュージョンを用いたDLK-Netのアブレーションは、提案されたダイナミック機構の利点を示し、精度向上と複雑性の低減を示す。
  • DLKはカスケード大カーネルと動的選択を通じてマルチスケール文脈情報を捉え、受容野の成長を効果的に実現する。
  • DFFはグローバルチャネル・空間の手掛かりに guided されたマルチスケール特徴の適応的融合を可能にし、重要なマップを保持しつつ顕著な領域を強調する。
  • 3D U-Net、TransUNet、TransBTS、UNETR、nnFormer、UX-Netと比較して、D-Netは、パラメータ数とFLOPsが同等以下または低く、Diceスコアが優れる。
Figure 2: The architecture of the DFF module. The global channel information $w_{ch}$ is extracted from feature maps $\boldsymbol{F}_{1}^{l}$ and $\boldsymbol{F}_{2}^{l}$ . These feature maps are calibrated and only informative features are selected by a convolution layer to generate features $\bold
Figure 2: The architecture of the DFF module. The global channel information $w_{ch}$ is extracted from feature maps $\boldsymbol{F}_{1}^{l}$ and $\boldsymbol{F}_{2}^{l}$ . These feature maps are calibrated and only informative features are selected by a convolution layer to generate features $\bold

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。