QUICK REVIEW

[論文レビュー] Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Rong Zhou, Houliang Zhou|arXiv (Cornell University)|Mar 10, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

ACADiff uses adaptive clinical-aware diffusion to synthesize missing brain imaging modalities from incomplete multimodal data, guided by clinical metadata, achieving state-of-the-art generation quality and robust diagnostics under high missingness.

ABSTRACT

Multimodal neuroimaging provides complementary insights for Alzheimer's disease diagnosis, yet clinical datasets frequently suffer from missing modalities. We propose ACADiff, a framework that synthesizes missing brain imaging modalities through adaptive clinical-aware diffusion. ACADiff learns mappings between incomplete multimodal observations and target modalities by progressively denoising latent representations while attending to available imaging data and clinical metadata. The framework employs adaptive fusion that dynamically reconfigures based on input availability, coupled with semantic clinical guidance via GPT-4o-encoded prompts. Three specialized generators enable bidirectional synthesis among sMRI, FDG-PET, and AV45-PET. Evaluated on ADNI subjects, ACADiff achieves superior generation quality and maintains robust diagnostic performance even under extreme 80\% missing scenarios, outperforming all existing baselines. To promote reproducibility, code is available at https://github.com/rongzhou7/ACADiff

研究の動機と目的

モチーフとなるモダリティが欠損しやすいアルツハイマー病の多模態神経画像化を動機づける。
欠損入力から欠損モダリティを合成する拡散ベースのフレームワークを開発する。
生成画像の診断パターンを保存するために適応的フュージョンと臨床メタデータを組み込む。
sMRI、FDG-PET、AV45-PET の双方向生成を実証し、ADNIデータで評価する。

提案手法

モダリティごとに特化した3D VAEを用いた潜在空間構築により、モダリティを圧縮潜在表現へ写像する。
前向き摂動と学習可能な3D U-Netデノイザーを用いたクロスモーダル拡散で、利用可能な入力に条件付けしてターゲットモダリティを生成する。
適応条件付けとして、(i) モダリティの可用性に応じたCrossAttnまたは Proj を用いた適応画像条件付け、(ii) GPT-4oでエンコードされたプロンプトによる semantically 臨床ガイダンス、(iii) 拡散ステップ間の時系列的モジュレーション、を導入。
モダリティドロップアウトによる階層的トレーニングで2→1および1→1生成を模擬し、生成分布と実データ潜在分布を整合させる一貫性損失を導入。
MRI、FDG-PET、AV45-PET の全6方向を可能にする三つの特化生成器。
ボクセルレベルの評価指標（MAE, PSNR, SSIM, NMI）と3D DenseNet-121を用いた下流分類をADNIデータで評価。

Fig. 1 : Overview of ACADiff. (a) Cross-modal latent diffusion with adaptive multi-source image conditioning and semantic clinical guidance via GPT-4o-encoded prompts. (b) Missing modality imputation for downstream diagnosis.

実験結果

リサーチクエスチョン

RQ1適応的フュージョンは、入力モダリティの可用性が異なる場合（2→1および1→1）でも、ターゲットモダリティを正確に生成できるか。
RQ2疾病ラベル、MMSE、ADAS13、CDR-SOB などの臨床メタデータを言語モデルでエンコードしたプロンプトを介して統合することで、生成画像の診断忠実度が改善されるか。
RQ30–80%の欠損といった欠損データシナリオにおいて、画像合成品質と下流分類性能の両面でACADiffはどう機能するか。
RQ4専門的な生成器は、sMRI、FDG-PET、AV45-PET 間の双方向生成を、既存ベースラインと比較して堅牢に提供できるか。

主な発見

Missing Rate	Method	ACC	AUC	SEN	SPE
0%	Oracle (Real)	0.920±0.029	0.943±0.023	0.889±0.031	0.908±0.028
20%	Drop	0.825±0.042	0.852±0.040	0.788±0.043	0.806±0.041
20%	Mean	0.798±0.045	0.826±0.043	0.761±0.046	0.779±0.044
20%	Pix2Pix	0.865±0.035	0.893±0.032	0.821±0.035	0.848±0.035
20%	DS-GAN	0.851±0.039	0.882±0.037	0.805±0.039	0.786±0.038
20%	LDM	0.885±0.036	0.902±0.031	0.817±0.033	0.861±0.038
20%	PASTA	0.883±0.036	0.900±0.032	0.820±0.035	0.850±0.031
20%	FICD	0.859±0.040	0.898±0.031	0.807±0.037	0.848±0.040
20%	ACADiff-emb(ours)	0.891±0.032	0.904±0.031	0.825±0.033	0.865±0.036
20%	ACADiff (ours)	0.894±0.035	0.910±0.026	0.827±0.034	0.868±0.031
40%	Drop	0.768±0.048	0.795±0.046	0.731±0.049	0.749±0.047
40%	Mean	0.742±0.050	0.769±0.048	0.705±0.051	0.723±0.049
40%	Pix2Pix	0.853±0.039	0.882±0.038	0.807±0.040	0.841±0.039
40%	DS-GAN	0.847±0.036	0.874±0.037	0.794±0.038	0.776±0.037
40%	LDM	0.877±0.032	0.892±0.032	0.809±0.037	0.850±0.036
40%	PASTA	0.875±0.033	0.897±0.031	0.815±0.035	0.848±0.034
40%	FICD	0.858±0.036	0.888±0.032	0.798±0.035	0.841±0.034
40%	ACADiff-emb(ours)	0.886±0.031	0.902±0.030	0.821±0.037	0.851±0.035
40%	ACADiff (ours)	0.889±0.031	0.906±0.025	0.823±0.032	0.854±0.037
60%	Drop	0.695±0.053	0.722±0.051	0.658±0.054	0.676±0.052
60%	Mean	0.663±0.054	0.690±0.052	0.626±0.055	0.644±0.053
60%	Pix2Pix	0.804±0.037	0.856±0.039	0.780±0.038	0.809±0.038
60%	DS-GAN	0.811±0.038	0.846±0.037	0.778±0.038	0.773±0.040
60%	LDM	0.842±0.035	0.871±0.034	0.789±0.037	0.827±0.035
60%	PASTA	0.851±0.035	0.880±0.033	0.791±0.035	0.829±0.033
60%	FICD	0.839±0.037	0.859±0.037	0.788±0.035	0.831±0.035
60%	ACADiff-emb(ours)	0.870±0.033	0.881±0.032	0.808±0.037	0.836±0.038
60%	ACADiff (ours)	0.878±0.030	0.883±0.029	0.819±0.036	0.841±0.038
80%	Drop	0.582±0.058	0.609±0.056	0.545±0.059	0.563±0.057
80%	Mean	0.551±0.060	0.578±0.058	0.514±0.061	0.532±0.059
80%	Pix2Pix	0.718±0.046	0.746±0.047	0.675±0.048	0.668±0.047
80%	DS-GAN	0.724±0.045	0.700±0.052	0.670±0.048	0.657±0.048
80%	LDM	0.764±0.049	0.757±0.049	0.683±0.048	0.702±0.049
80%	PASTA	0.759±0.048	0.754±0.049	0.679±0.048	0.696±0.046
80%	FICD	0.722±0.051	0.739±0.048	0.649±0.051	0.660±0.052
80%	ACADiff-emb(ours)	0.768±0.049	0.757±0.052	0.711±0.048	0.704±0.047
80%	ACADiff (ours)	0.775±0.046	0.763±0.046	0.719±0.041	0.713±0.045

ACADiffは、ベースラインおよびLDMと比較してPSNR、SSIM、NMI、MAEの指標で優れた生成品質を達成し、PSNRは27.9、SSIMは0.911、NMIは0.859、MAEは0.014。
GPT-4oベースの臨床ガイダンスを含めると、 embeddingsのみの変種より約1.8のPSNRギャップが生じ、言語モデルによる臨床エンコードの利点を検証。
欠損率に応じた分類性能は堅牢であり、例えば20%欠損時は89.4%の精度（完全データ時のOracleの97.2%）で、80%欠損時でも77.5%の精度を達成し、LDM（76.4%）などのベースラインより優れる。
ACADiff-emb（言語埋め込み）はACADiff（GPT-4oガイド）より劣ることを示し、意味的臨床プロンプトの価値を強調。
Any→MRI、Any→FDG-PET、Any→AV45-PET の三つの生成器をサポートし、六方向すべての翻訳を競争力ある結果で実現。
1,028名のADNI被験者を対象とした実験で、欠損率シナリオを横断する強力な生成品質と診断有用性を示唆。

Fig. 2 : Image generation performance across methods. Higher PSNR/SSIM/NMI and lower MAE indicate better quality.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。