[論文レビュー] I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling
I2I-Mambaは、CNNバックボーンにepisodic cmMambaブロックを組み込んだ選択的状態空間モデルを提案し、欠損ターゲットモダリティの医用画像を合成する。マルチコントラストMRIとMRI-CTタスクでCNNおよびトランスフォーマーのベースラインを上回る。
Multi-modal medical image synthesis involves nonlinear transformation of tissue signals between source and target modalities, where tissues exhibit contextual interactions across diverse spatial distances. As such, the utility of a network architecture in synthesis depends on its ability to express the broad set of contextual features in medical images. Convolutional neural networks (CNNs) offer high local precision at the expense of poor sensitivity to long-range context. While transformers promise to alleviate this issue, they suffer from an unfavorable trade-off between sensitivity to long- versus short-range context due to the intrinsic complexity of attention filters. To effectively capture contextual features while avoiding the complexitydriven trade-offs, here we introduce a novel multi-modal synthesis method, I2I-Mamba, based on the state space modeling (SSM) framework. Focusing on high-level representations across a hybrid residual architecture, I2I-Mamba leverages novel dual-domain Mamba (ddMamba) blocks for complementary contextual modeling in image and Fourier domains, while maintaining spatial precision with convolutional layers. Diverting from conventional raster-scan trajectories, ddMamba leverages novel SSM operators based on a spiral-scan trajectory to learn context with enhanced angular isotropy and radial coverage, and a channel-mixing layer to aggregate context across the channel dimension. Comprehensive demonstrations on multi-contrast MRI and MRI-CT protocols indicate that I2I-Mamba outperforms state-of-the-art CNNs, transformers and SSMs.
研究の動機と目的
- マルチモーダル医用画像で欠損モダリティを推定する際の精度向上を、長距離文脈の効率的なモデリングで動機づける。
- 空間文脈とチャネル文脈を捉える episodic cmMambaブロックを用いたハイブリッドCNN-SSMアーキテクチャI2I-Mambaを開発する。
- I2I-MambaがマルチコントラストMRIおよびMRI-CTの推定タスクで最先端のCNNおよびトランスフォーマーのベースラインを凌駕することを示す。
提案手法
- 空間文脈をモデル化するSSM層を含むcmMambaブロックと、チャネル文脈をモデル化するチャネル混合層を導入する。
- エンコーダ–ボトルネック–デコーダ本幹に挿入されたエピソディックボトルネックにSSMベースの長距離文脈を埋め込み、他の段階は残差CNNブロックを用いる。
- 条件付きPatchGAN識別器とピクセル単位および敵対的損失を組み合わせた敵対モデルとして動作する。
- 入力はチャネル方向に源モダリティ画像を連結し、CNNエンコーダを通して潜在マップを取得し、エピソディックボトルネックとデコーダを通じてターゲットモダリティを再構成する。
- SSMは式(6)-(9)のようにA、B、C、Dパラメータ、ゲーティング、残差接続を備えた離散化された状態空間モデルで実装される。
- L_pix(L1)とL_adv項を含む損失L_GとL_Dで訓練し、対になったソース-ターゲットデータ上でAdamで最適化する。
実験結果
リサーチクエスチョン
- RQ1cmMambaブロックによる選択的状態空間モデリングは、マルチモーダル医用画像合成において長距離文脈を効率的に捉えられるか。
- RQ2I2I-MambaアーキテクチャはマルチコントラストMRIおよびMRI-CTの欠損モダリティ推定においてCNNおよびトランスフォーマーベースラインを上回るか。
- RQ3cmMambaブロックをエピソディブ挿入するタイミングは合成品質にどのような影響を与えるか。
- RQ4多-to-oneとone-to-oneのモダリティ推定タスクで性能はどう変化するか。
主な発見
| タスク | モデル | 指標 | 値 | ノート |
|---|---|---|---|---|
| Many-to-one (T1,T2 -> PD) | I2I-Mamba | PSNR | 33.36 | - |
| Many-to-one (T1,T2 -> PD) | I2I-Mamba | SSIM | 0.970 | - |
| Many-to-one (T1,T2 -> PD) | pGAN | PSNR | 32.91 | - |
| Many-to-one (T1,T2 -> PD) | pGAN | SSIM | 0.966 | - |
| Many-to-one (T1, T2 -> PD) | medSynth | PSNR | 33.23 | - |
| Many-to-one (T1, T2 -> PD) | medSynth | SSIM | 0.967 | - |
| Many-to-one (T1,T2 -> PD) | ResViT | PSNR | 32.98 | - |
| Many-to-one (T1,T2 -> PD) | ResViT | SSIM | 0.968 | - |
| One-to-one (T2 -> PD) | I2I-Mamba | PSNR | 34.79 | - |
| One-to-one (T2 -> PD) | I2I-Mamba | SSIM | 0.969 | - |
| One-to-one (T2 -> PD) | pGAN | PSNR | 33.95 | - |
| One-to-one (T2 -> PD) | pGAN | SSIM | 0.965 | - |
- I2I-Mambaは、マルチコントラストMRIおよびMRI-CTの推定タスク全体でCNNおよびトランスフォーマーベースラインを上回る最高の性能(PSNRとSSIMが高い)を示す。
- 畳み込みベースラインと比較して、I2I-Mambaは平均でPSNR約1.0dB、SSIM約0.5%の向上;トランスフォーマーベースラインに対してはPSNRで平均以上1.5dB、SSIMで平均0.9%超の向上。
- 合成結果はI2I-Mambaでアーチファクトが少なく、組織描写がシャープになり、特に診断上重要な領域(例:MRI-CTの骨)で顕著。
- アーキテクチャは中程度の空間解像度を維持(例:64x64)し、初期・中間・最終ボトルネック段階にepisdodic cmMambaブロックを用いて長距離文脈と局所精度のバランスを取る。
- 多-to-one(例:T1,T2 -> PD)およびone-to-one(例:T2 -> PD、PD -> T2)の推定タスクの両方で他手法を上回ることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。