QUICK REVIEW

[论文解读] EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Qiuhui Chen, Xiaolei Yao|arXiv (Cornell University)|Feb 22, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

EMAD 是一个视觉–语言框架，通过对3D MRI与临床数据的联合推理，生成结构化、证据支撑的 AD 诊断报告，具有显式的句子–证据–解剖 grounding 以及可执行规则的 RL 微调。

ABSTRACT

Deep learning models for medical image analysis often act as black boxes, seldom aligning with clinical guidelines or explicitly linking decisions to supporting evidence. This is especially critical in Alzheimer's disease (AD), where predictions should be grounded in both anatomical and clinical findings. We present EMAD, a vision-language framework that generates structured AD diagnostic reports in which each claim is explicitly grounded in multimodal evidence. EMAD uses a hierarchical Sentence-Evidence-Anatomy (SEA) grounding mechanism: (i) sentence-to-evidence grounding links generated sentences to clinical evidence phrases, and (ii) evidence-to-anatomy grounding localizes corresponding structures on 3D brain MRI. To reduce dense annotation requirements, we propose GTX-Distill, which transfers grounding behavior from a teacher trained with limited supervision to a student operating on model-generated reports. We further introduce Executable-Rule GRPO, a reinforcement fine-tuning scheme with verifiable rewards that enforces clinical consistency, protocol adherence, and reasoning-diagnosis coherence. On the AD-MultiSense dataset, EMAD achieves state-of-the-art diagnostic accuracy and produces more transparent, anatomically faithful reports than existing methods. We will release code and grounding annotations to support future research in trustworthy medical vision-language models.

研究动机与目标

推动建立与临床指南对齐、并为每一断言提供显式证据的透明AD诊断系统。
提出一个多模态视觉–语言模型，使每个句子都能与临床证据和局部脑解剖结构相关联。
通过高效标注的grounding传递（ GTX-Distill ）降低标注成本，并通过可执行规则的 RL 微调（ GRPO ）强化临床一致性。
实现对大规模队列的校准诊断与解剖学上忠实的报告。

提出的方法

多模态编码器（3D sMRI 与结构化临床数据），通过双向跨注意力融合获得统一表征。
句子–证据–解剖（SEA） grounding：将每个句子与临床证据绑定，再与3D MRI上的解剖掩模绑定。
GTX-Distill 将在有限监督下训练的教师模型的 grounding 传递给使用模型生成报告的学生模型。
可执行规则 GRPO：通过可验证奖励的RL，强制输出结构化、NIA-AA一致性以及推理–诊断蕴含。
三阶段训练：预训练（ITC 与重建）、带 GTX-Distill 与 SEA 的监督微调，以及带 GRPO 的强化微调。
grounding 使用多正样本 InfoNCE 进行句子–证据对齐，并通过证据条件化的3D分割实现解剖 grounding。

实验结果

研究问题

RQ1一个多模态模型是否能够给出在临床证据与解剖定位上都明确 grounding 的AD诊断？
RQ2通过 GTX-Distill 将 grounding 知识转移，是否能够在降低标注成本的同时保持 grounding 质量？
RQ3可执行规则强化学习是否能改善临床可信度以及对诊断指南的遵循？
RQ4EMAD 在 CN/MCI/AD 的分级以及在 AD-MultiSense 上生成透明、解剖学上忠实报告方面的表现如何？

主要发现

Method	BLEU	METEOR	ROUGE	BERT	ACC (%)	AUC (%)	SEN (%)	SPE (%)
CN vs CI - LLaVA-1.5-7B ∗	0.0831	0.2417	0.2795	0.8012	74.23	70.58	62.14	82.36
CN vs CI - LLaVA-Med ∗	0.1024	0.2635	0.3042	0.8137	76.41	73.27	64.89	84.72
CN vs CI - Med-PaLM-M ∗	0.1189	0.2826	0.3314	0.8293	79.12	76.84	67.53	86.19
CN vs CI - M3d-LaMed ∗	0.1375	0.2982	0.3598	0.8341	82.37	79.65	70.94	87.56
CN vs CI - LLaVA-1.5-7B	0.2973	0.4764	0.5987	0.8485	86.42	83.19	80.37	88.54
CN vs CI - LLaVA-Med	0.3186	0.4981	0.6179	0.8592	88.57	85.03	82.16	90.28
CN vs CI - Med-PaLM-M	0.3394	0.5173	0.6371	0.8726	90.13	87.42	84.95	92.07
CN vs CI - M3d-LaMed	0.3627	0.5419	0.6594	0.8748	91.28	89.16	86.72	93.14
CN vs CI - EMAD (ours)	0.5422	0.6790	0.7781	0.9130	93.33	91.83	88.67	95.00
CN vs MCI - LLaVA-1.5-7B ∗	0.0715	0.2283	0.2594	0.7886	71.18	68.47	63.52	77.39
CN vs MCI - LLaVA-Med ∗	0.0897	0.2472	0.2816	0.7991	73.42	70.59	66.84	79.21
CN vs MCI - Med-PaLM-M ∗	0.1123	0.2698	0.3097	0.8184	76.35	73.48	68.92	82.17
CN vs MCI - M3d-LaMed ∗	0.1294	0.2875	0.3391	0.8217	78.64	76.23	71.37	84.53
CN vs MCI - LLaVA-1.5-7B	0.2826	0.4627	0.5789	0.8421	84.27	82.14	79.63	87.18
CN vs MCI - LLaVA-Med	0.3018	0.4815	0.6012	0.8534	86.39	84.27	81.45	89.32
CN vs MCI - Med-PaLM-M	0.3241	0.5036	0.6228	0.8649	88.21	86.45	83.72	91.08
CN vs MCI - M3d-LaMed	0.3437	0.5219	0.6413	0.8685	89.47	88.06	85.29	92.36
CN vs MCI - EMAD (ours)	0.5343	0.6421	0.7912	0.9130	92.82	90.09	88.60	93.50
Three-way CN/MCI/AD - EMAD (ours)	-	-	-	-	89.4	87.8	90.6	86.3

EMAD 在 CN vs CI 与 CN vs MCI 任务上达到最先进的诊断性能，在报告质量指标与准确性/AUC上均优于强基线医学大语言模型。
SEA grounding 与 GTX-Distill 显著提升句子–证据及证据–解剖的对齐（R@1 高达 0.65，MAP 高达 0.76）。
证据条件化的3D分割对海马体与内侧颞叶 grounding 的 Dice 分数高于仅用图像分割的情况。
GTX-Distill 实现高效的 grounding 传递，保留约95%的教师模型性能，仅需25%的 grounding 标签。
可执行规则 GRPO 提升结构化输出的有效性、NIA-AA 一致性和推理–诊断蕴含，同时保持诊断准确性。
EMAD 在生成的报告中提供从叙述性断言到测量值与脑结构的明确链接。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。