Skip to main content
QUICK REVIEW

[论文解读] Addressing Data Bias Problems for Chest X-ray Image Report Generation

Philipp Harzig, Yanying Chen|arXiv (Cornell University)|Aug 6, 2019
Topic Modeling被引用 28
一句话总结

本文提出一种具有双词LSTM和异常预测器的层次化LSTM,以解决胸部X光报告生成中的数据偏差问题,提升生成报告的多样性并减少对正常报告的过度依赖。该方法在生成报告的独创性方面表现更优,在Cider和Rouge-L指标上优于基线模型,尤其在异常病例上表现突出,同时揭示了BLEU等标准指标的局限性。

ABSTRACT

Automatic medical report generation from chest X-ray images is one possibility for assisting doctors to reduce their workload. However, the different patterns and data distribution of normal and abnormal cases can bias machine learning models. Previous attempts did not focus on isolating the generation of the abnormal and normal sentences in order to increase the variability of generated paragraphs. To address this, we propose to separate abnormal and normal sentence generation by using two different word LSTMs in a hierarchical LSTM model. We conduct an analysis on the distinctiveness of generated sentences compared to the BLEU score, which increases when less distinct reports are generated. We hope our findings will help to encourage the development of new metrics to better verify methods of automatic medical report generation.

研究动机与目标

  • 解决胸部X光报告数据集中因训练数据类别不平衡导致的模型偏向生成正常发现的问题。
  • 提升生成医学报告的多样性与独创性,尤其针对异常发现。
  • 探究标准机器翻译指标(如BLEU)在评估医学报告生成任务中的局限性。
  • 开发一种将正常与异常句子生成分离的模型架构,以增强报告的可变性与临床相关性。

提出的方法

  • 对公开的IU CXR数据集中每个句子进行异常/正常标签的标注,以支持针对性训练。
  • 设计一种具有双词LSTM的层次化LSTM模型——一个用于正常句子生成,一个用于异常句子生成,共享图像编码器。
  • 集成异常预测模块以引导双LSTM,确保生成结果与图像内容相适应。
  • 使用协同注意力机制对齐视觉特征与语言表征,以提升上下文理解能力。
  • 采用交叉熵损失端到端训练模型,并使用标准指标(BLEU、Cider、Meteor、Rouge-L)进行评估。
  • 分析评估分数与报告独创性之间的相关性,以评估指标的可靠性。

实验结果

研究问题

  • RQ1胸部X光报告数据集中的数据不平衡在多大程度上导致模型偏向生成正常发现?
  • RQ2通过双词LSTM分离正常与异常句子生成,是否能提升报告多样性并减少模型偏差?
  • RQ3标准机器翻译指标(如BLEU)与生成医学报告的独创性及临床相关性之间的相关性如何?
  • RQ4所提出的双LSTM架构是否在生成多样化且准确的报告方面优于标准层次化LSTM,尤其是在异常病例上?
  • RQ5是否能在不降低正常病例生成质量的前提下,提升模型在异常病例上的表现?

主要发现

  • HLSTM+att+Dual模型在测试集上取得了最高的Cider分数(49.5),表明其能更好地捕捉参考报告中的独特n-gram。
  • 与单LSTM基线相比,双词LSTM模型在每个句子索引上生成了显著更多具有独创性的句子,尤其是在采用合适停止准则时。
  • 尽管BLEU-4分数很高,但某一模型对所有输入生成了完全相同的报告,表明高BLEU分数并不能保证报告的多样性或质量。
  • 该模型在Meteor和Rouge-L指标上优于基线,显示出更高的相关性与流畅性,同时未牺牲独创性。
  • 模型在正常图像上的表现始终优于异常图像,凸显了在临床关键的异常病例上进行针对性改进的必要性。
  • 分析表明,BLEU等标准指标是报告独创性的不良指标,提示医学报告生成任务亟需新的评估指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。