Skip to main content
QUICK REVIEW

[论文解读] Producing radiologist-quality reports for interpretable artificial intelligence

William A. Gale, Luke Oakden‐Rayner|arXiv (Cornell University)|Jun 1, 2018
Topic Modeling参考文献 17被引用 23
一句话总结

本文提出了一种与模型无关的方法,利用带有视觉注意力机制的循环神经网络,为基于深度学习的医学影像分类生成放射科医生水平的自然语言解释。结果表明,临床医生更倾向于使用这些文本解释,尤其是当与视觉解释结合时,能以90%的准确率描述骨折位置,98%的准确率描述骨折特征,该结果由放射科医生评分确认。

ABSTRACT

Current approaches to explaining the decisions of deep learning systems for medical tasks have focused on visualising the elements that have contributed to each decision. We argue that such approaches are not enough to "open the black box" of medical decision making systems because they are missing a key component that has been used as a standard communication tool between doctors for centuries: language. We propose a model-agnostic interpretability method that involves training a simple recurrent neural network model to produce descriptive sentences to clarify the decision of deep learning classifiers. We test our method on the task of detecting hip fractures from frontal pelvic x-rays. This process requires minimal additional labelling despite producing text containing elements that the original deep learning classification model was not specifically trained to detect. The experimental results show that: 1) the sentences produced by our method consistently contain the desired information, 2) the generated sentences are preferred by doctors compared to current tools that create saliency maps, and 3) the combination of visualisations and generated text is better than either alone.

研究动机与目标

  • 为解决医学中可解释AI的临床需求,生成临床医生信任的人类风格解释。
  • 通过引入传达诊断推理过程的自然语言描述,克服显著性图的局限性。
  • 开发一种与模型无关的方法,仅需在现有诊断数据基础上进行最少的额外标注。
  • 评估生成的文本解释是否比仅使用视觉解释更受放射科医生青睐。
  • 评估结合文本与视觉解释是否能显著提升诊断可解释性,超越单一模态的效果。

提出的方法

  • 训练一个带有视觉注意力机制的循环神经网络,以生成解释预训练深度学习分类器决策的描述性句子。
  • 在简化版、由放射科医生标注的髋部骨折位置与特征描述术语集上进行训练,该术语集源自原始放射科报告。
  • 训练数据使用受控词汇表,包含关键解剖学术语和描述性术语,以确保一致性和临床相关性。
  • 该方法应用于包含50,363张前后位骨盆X光片(其中4,010例为髋部骨折)的大规模数据集,以DenseNet分类器作为基础模型。
  • 使用SmoothGrad方法生成显著性图,用于与文本解释进行对比。
  • 通过放射科医生对文本质量及临床偏好的评分,在对比研究中评估解释效果。

实验结果

研究问题

  • RQ1简单的循环神经网络能否生成具有临床意义且受放射科医生青睐的自然语言解释?
  • RQ2生成的文本在描述骨折位置和特征方面,与原始放射科报告相比质量如何?
  • RQ3临床医生是否更倾向于使用基于文本的解释而非显著性图来理解AI决策?
  • RQ4结合文本与视觉解释是否比单独使用任一模态更有效?
  • RQ5该方法是否可应用于任意深度学习分类器而无需重新训练,从而实现与模型无关?

主要发现

  • 生成的句子在描述髋部骨折正确解剖位置方面达到90%的准确率,而原始放射科报告为99%。
  • 该模型在描述骨折特征方面达到98%的准确率,显著优于原始报告(仅78%正确)。
  • 放射科医生对生成的文本解释平均评分为7.0/10,显著高于仅使用显著性图的评分(4.4/10)。
  • 显著性图与生成文本结合的解释获得最高平均分(8.8/10),表明临床医生强烈偏好多模态解释。
  • 该方法具有与模型无关性,且仅需最少的额外标注,利用现有诊断标签同时完成分类与解释任务。
  • 该方法成功将复杂模型决策提炼为简洁、可读的人类描述,与临床推理逻辑高度一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。