[論文レビュー] MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model
MedSegDiffは、動的条件付けと FF-Parser を用いた拡散確率モデルを医療画像分割に適用し、ステップごとの注意を改善して高周波ノイズを抑制します。 optic cup、brain tumor、thyroid nodule の分割で複数モダリティにおいてSOTAを達成します。
Diffusion probabilistic model (DPM) recently becomes one of the hottest topic in computer vision. Its image generation application such as Imagen, Latent Diffusion Models and Stable Diffusion have shown impressive generation capabilities, which aroused extensive discussion in the community. Many recent studies also found it is useful in many other vision tasks, like image deblurring, super-resolution and anomaly detection. Inspired by the success of DPM, we propose the first DPM based model toward general medical image segmentation tasks, which we named MedSegDiff. In order to enhance the step-wise regional attention in DPM for the medical image segmentation, we propose dynamic conditional encoding, which establishes the state-adaptive conditions for each sampling step. We further propose Feature Frequency Parser (FF-Parser), to eliminate the negative effect of high-frequency noise component in this process. We verify MedSegDiff on three medical segmentation tasks with different image modalities, which are optic cup segmentation over fundus images, brain tumor segmentation over MRI images and thyroid nodule segmentation over ultrasound images. The experimental results show that MedSegDiff outperforms state-of-the-art (SOTA) methods with considerable performance gap, indicating the generalization and effectiveness of the proposed model. Our code is released at https://github.com/WuJunde/MedSegDiff.
研究の動機と目的
- 一般的な医療画像分割に拡散確率モデル(DPM)を適用する。
- 各サンプリングステップでの ambiguous な医用画像に対してモデルを適応させる動的条件付けを開発する。
- FF-Parserを導入して特徴統合時の高周波ノイズを軽減する。
- 複数モダリティ(基金眼 Fundus、MRI、超音波)および臓器/病変領域を横断して一般化を示す。
- 三つの分割タスクでSOTAを上回る強力な経験的結果を提供する。
提案手法
- モデルを画像事前情報と現在ステップの分割を条件付けとしたUNet風デノイザーを用いる拡散確率フレームワークに基づける。
- 現在ステップの分割特徴を複数スケールで生データ特徴と統合する注意機構風のフュージョンにより動的条件付けを導入する。
- FF-Parserを提案し、多段階統合時のスキップ接続におけるフーリエ領域の高周波ノイズを除去する。
- 標準のDPM目的関数とAdamWによるエンドツーエンド最適化で訓練する。異なるモダリティをもつ複数タスクデータセットに対応する。
- Optic cup (fundus)、Brain tumor (MRI)、Thyroid nodule (ultrasound)でDiceとIoU指標を用いて評価する。
- ResUNet、BEAL、TransBTS、EnsemDiff、nnUNet、TransUNetを含むSOTAのCNN/ViTおよび拡散ベースのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1複数モダリティを横断した一般的な医療画像分割にDPMを効果的に適用できるか。
- RQ2動的条件付けは不確実な医用画像におけるステップごとの注意と局在化を改善するか。
- RQ3FF-Parserは拡散ベースの分割における高周波ノイズを低減し分割品質を改善するか。
- RQ4MedSegDiffは異なるモダリティにわたる optic cup、brain tumor、thyroid nodule の分割でSOTA手法と比較してどの程度優れるか。
主な発見
| OpticCup Dice | OpticCup IoU | BrainTumor Dice | BrainTumor IoU | ThyroidNodule Dice | ThyroidNodule IoU | |
|---|---|---|---|---|---|---|
| ResUnet | 80.1 | 72.3 | - | - | - | - |
| BEAL | 83.5 | 74.1 | - | - | - | - |
| TransBTS | - | - | 87.6 | 78.3 | - | - |
| EnsemDiff | - | - | 88.7 | 80.9 | - | - |
| MTSeg | - | - | - | - | 82.3 | 75.2 |
| UltraUNet | - | - | - | - | 84.5 | 76.2 |
| CENet | 78.6 | 69.4 | 76.2 | 68.9 | 78.9 | 71.2 |
| MRNet | 84.2 | 75.1 | 83.4 | 75.6 | 80.4 | 73.4 |
| SegNet | 80.4 | 70.7 | 80.2 | 72.9 | 81.7 | 74.5 |
| nnUNet | 84.9 | 75.1 | 88.2 | 80.4 | 84.2 | 76.2 |
| TransUNet | 85.6 | 75.9 | 86.6 | 79.0 | 83.5 | 75.1 |
| MedSegDiff-S | 81.2 | 71.7 | 82.3 | 73.6 | 80.8 | 73.7 |
| MedSegDiff-B | 85.9 | 76.2 | 88.9 | 81.2 | 84.8 | 76.4 |
| MedSegDiff-L | 86.9 | 78.5 | 89.9 | 82.3 | 86.1 | 79.6 |
| MedSegDiff++ | 87.5 | 79.1 | 90.5 | 82.8 | 86.6 | 80.2 |
- MedSegDiffの派生は、異なるモダリティで三つのタスクに対してSOTAまたは高い性能を達成する。
- 動的条件付けは、特に低コントラストや領域局在化シナリオで vanilla DPM に対して顕著な利得を提供する。
- FF-Parserは特徴統合時の高周波ノイズを抑制することで結果をさらに改善する。
- MedSegDiff++は以下の指標で最高値を記録する: optic cup Dice 87.5, IoU 79.1; brain tumor Dice 90.5, IoU 82.8; thyroid nodule Dice 86.6, IoU 80.2。
- EnsemDiff(脳腫瘍向けのDPMベース手法)と比較して、MedSegDiffはDiceとIoUで脳腫瘍および他のタスクで大幅な改善を示す。
- 結果はMedSegDiffが異なる医療画像モダリティ間で強い一般化性を持つことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。