QUICK REVIEW

[論文レビュー] VM-DDPM: Vision Mamba Diffusion for Medical Image Synthesis

Zhihan Ju, Wanting Zhou|arXiv (Cornell University)|May 9, 2024

Image Retrieval and Classification Techniques被引用数 6

ひとこと要約

VM-DDPMは、Vision Mamba拡散モデルを導入し、状態空間モデルとCNNを結合して、効率的で全体的に意識した医療画像合成を実現し、複数データセットで最先端のFIDを達成しています。

ABSTRACT

In the realm of smart healthcare, researchers enhance the scale and diversity of medical datasets through medical image synthesis. However, existing methods are limited by CNN local perception and Transformer quadratic complexity, making it difficult to balance structural texture consistency. To this end, we propose the Vision Mamba DDPM (VM-DDPM) based on State Space Model (SSM), fully combining CNN local perception and SSM global modeling capabilities, while maintaining linear computational complexity. Specifically, we designed a multi-level feature extraction module called Multi-level State Space Block (MSSBlock), and a basic unit of encoder-decoder structure called State Space Layer (SSLayer) for medical pathological images. Besides, we designed a simple, Plug-and-Play, zero-parameter Sequence Regeneration strategy for the Cross-Scan Module (CSM), which enabled the S6 module to fully perceive the spatial features of the 2D image and stimulate the generalization potential of the model. To our best knowledge, this is the first medical image synthesis model based on the SSM-CNN hybrid architecture. Our experimental evaluation on three datasets of different scales, i.e., ACDC, BraTS2018, and ChestXRay, as well as qualitative evaluation by radiologists, demonstrate that VM-DDPM achieves state-of-the-art performance.

研究の動機と目的

医用画像におけるデータ不足に対処するため、高品質な合成画像を生成する。
CNNと状態空間モデル（SSM）を組み合わせて、線形計算コストでグローバルな文脈モデリングを実現する。
医用画像のための多レベル特徴融合（MSSBlock）とエンコーダ—デコーダSSLayerユニットを設計する。
強化されたCross-Scan Module (CSM) とゼロパラメータのSequence Regeneration戦略により、空間的連続性とテクスチャのリアリズムを向上させる。

提案手法

CNN-SSMハイブリッドバックボーン上に構築されたDenoising Diffusion Probabilistic Model (DDPM) である VM-DDPM を提案する。
CSMとCNN経路を組み合わせた多レベル特徴抽出ユニットとしてMSSBlockを導入する。
エンコーダ/デコーダの基本ユニットとしてSSLayerを実装し、残差接続と時間埋め込み処理を備える。
S6操作の前にパッチ順序をシャッフルするPlug-and-Play Sequence Regeneration戦略でCSMを強化する。
U-Netに類似したスキップ接続を用いたエンコーダ-ボトルネック-デコーダアーキテクチャを用い、スケールを越えた特徴融合を行う。

実験結果

リサーチクエスチョン

RQ1CNN-SSMハイブリッド拡散モデルは、無条件の医用画像合成において競合するまたは優れた品質と多様性を達成できるか？
RQ2Sequence Regeneration戦略はSSMベースの拡散モデルの空間的連続性と一般化を向上させるか？
RQ3ACDC、BraTS2018、ChestXRayなど、サイズやモダリティが異なるデータセット間で、VM-DDPMはGANsおよびDDPMベースラインと比較してどう性能を示すか？
RQ4MSSBlockベースの多レベル特徴融合が、合成医用画像のテクスチャと構造に与える影響は何か？

主な発見

モデル	データセットA FID ↓	データセットB FID ↓	データセットC FID ↓
DCGAN	98.216	—	—
SAGAN	42.753	90.582	79.037
UNetGAN	94.668	60.097	82.113
DDPM	23.679	28.335	66.630
DDIM	21.695	22.391	47.434
VM-DDPM	11.783	12.513	34.525

VM-DDPMは、3つのデータセットにわたり、GANベースといくつかのDDPMベースラインを上回るFIDスコアを達成する。
ChestXRay、BraTS2018、およびACDCでは、VM-DDPMはそれぞれ11.783、12.513、34.525のFIDスコアを達成（低いほど良い）。
アブレーションにより、Sequence Regeneration戦略が元のCSMよりデータセット全体で性能を向上させることが示された。
定性的な放射線科医の評価は、合成画像が実画像と区別しづらく、病理とテクスチャが類似していることを示す。
このアプローチは、医用画像合成のデータセット間の強い汎化性とスケーラビリティを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。