[论文解读] Generating Radiology Reports via Memory-driven Transformer
本文提出一种基于记忆的Transformer模型用于放射科报告生成,引入关系记忆(relational memory)和基于记忆的条件层归一化(MCLN)机制,以提升长篇、临床准确的报告生成效果。该方法在IU X-Ray和MIMIC-CXR数据集上达到最先进性能,生成的报告在医学术语使用上更准确,且图像-文本注意力映射更具意义。
Medical imaging is frequently used in clinical practice and trials for diagnosis and treatment. Writing imaging reports is time-consuming and can be error-prone for inexperienced radiologists. Therefore, automatically generating radiology reports is highly desired to lighten the workload of radiologists and accordingly promote clinical automation, which is an essential task to apply artificial intelligence to the medical domain. In this paper, we propose to generate radiology reports with memory-driven Transformer, where a relational memory is designed to record key information of the generation process and a memory-driven conditional layer normalization is applied to incorporating the memory into the decoder of Transformer. Experimental results on two prevailing radiology report datasets, IU X-Ray and MIMIC-CXR, show that our proposed approach outperforms previous models with respect to both language generation metrics and clinical evaluations. Particularly, this is the first work reporting the generation results on MIMIC-CXR to the best of our knowledge. Further analyses also demonstrate that our approach is able to generate long reports with necessary medical terms as well as meaningful image-text attention mappings.
研究动机与目标
- 为解决利用深度学习生成长篇、临床准确的放射科报告所面临的挑战。
- 改进现有图像字幕模型在捕捉放射科报告中模式化、多句结构方面的不足。
- 通过记忆机制隐式建模报告中反复出现的临床模式。
- 通过一种新颖的归一化技术,将关系记忆整合到Transformer解码器中,以增强其性能。
- 在基准放射科报告数据集上展示最先进性能,包括首次在MIMIC-CXR数据集上报告结果。
提出的方法
- 引入关系记忆(RM)以存储并检索先前解码步骤中的关键信息,捕捉报告间的模式。
- 设计基于记忆的条件层归一化(MCLN)机制,使Transformer层的归一化过程依赖于关系记忆。
- 将记忆机制集成到Transformer架构的解码器中,实现在自回归生成过程中动态上下文适应。
- 模型遵循标准的序列到序列框架,以图像块提取的视觉特征作为输入。
- 训练目标为最小化真实报告与生成序列之间的交叉熵损失。
- 在两个公开数据集(IU X-Ray和MIMIC-CXR)上进行微调,采用标准训练协议。
实验结果
研究问题
- RQ1基于记忆增强的Transformer架构是否能提升长篇、临床结构化放射科报告的生成效果?
- RQ2引入关系记忆如何影响模型生成医学上准确且具有模式化特征报告的能力?
- RQ3所提出的MCLN机制是否能增强图像区域与生成报告标记之间的注意力对齐?
- RQ4与先前最先进方法相比,该模型在标准指标和临床评估中的表现如何?
- RQ5记忆大小对报告质量与生成稳定性有何影响?
主要发现
- 所提模型在IU X-Ray和MIMIC-CXR数据集上,于BLEU、ROUGE和CIDEr等多个语言生成指标上均达到最先进性能。
- 在MIMIC-CXR数据集上,该模型报告了首次公开发布的结果,证明其在大规模、多样化临床数据集上的有效性。
- 与基线模型相比,该模型生成的报告更长,且更频繁地使用关键医学术语,如“肺不张”和“胸腔积液”。
- 定性分析表明,该模型生成的图像-文本注意力映射更具意义,报告发现与视觉区域的对齐更优。
- 消融实验确认,关系记忆和MCLN机制均对性能有显著贡献,且在中等记忆大小时达到最优效果。
- 错误分析显示,训练数据中的类别不平衡会影响罕见发现的生成,提示数据偏差是未来工作中的关键限制因素。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。