QUICK REVIEW

[论文解读] Clinically Accurate Chest X-Ray Report Generation

Guanxiong Liu, Tzu-Ming Harry Hsu|arXiv (Cornell University)|Apr 4, 2019

Radiomics and Machine Learning in Medical Imaging参考文献 56被引用 111

一句话总结

该论文提出一个领域感知的分层胸部X光报告生成器，使用临床一致性奖励来在 Open-I 和 MIMIC-CXR 上提升语言质量与临床准确性。

ABSTRACT

The automatic generation of radiology reports given medical radiographs has significant potential to operationally and improve clinical patient care. A number of prior works have focused on this problem, employing advanced methods from computer vision and natural language generation to produce readable reports. However, these works often fail to account for the particular nuances of the radiology domain, and, in particular, the critical importance of clinical accuracy in the resulting generated reports. In this work, we present a domain-aware automatic chest X-ray radiology report generation system which first predicts what topics will be discussed in the report, then conditionally generates sentences corresponding to these topics. The resulting system is fine-tuned using reinforcement learning, considering both readability and clinical accuracy, as assessed by the proposed Clinically Coherent Reward. We verify this system on two datasets, Open-I and MIMIC-CXR, and demonstrate that our model offers marked improvements on both language generation metrics and CheXpert assessed accuracy over a variety of competitive baselines.

研究动机与目标

解决生成的胸部X光报告在流畅性与临床准确性之间的差距。
提出一个分层的 CNN-RNN-RNN 生成器，从主题驱动的句子解码器创建句子。
基于 CheXpert 的临床一致性奖励来使疾病状态的提及与真实情况保持一致。
用强化学习对模型进行微调，以在可读性与临床保真度之间取得平衡。
在两个公开数据集（Open-I 和 MIMIC-CXR）上与强基线进行评估。）

提出的方法

分层生成：通过 CNN 进行图像编码，通过一个 LSTM 进行句子级主题生成，使用带注意力的词级解码。
主题引导的句子生成：每个句子都基于从句子级 LSTM 派生的主题向量进行条件化。
带视觉哨兵和对图像特征的注意力的词解码器，用以生成每个句子。
带有组合目标的强化学习：基于 CIDEr 的 NLG 奖励与来自 CheXpert 标签的 Clinically Coherent Reward (CCR) 的综合目标。
临床一致性奖励通过在假设适用于罕见疾病的前提下，使用 p(+|l) 和 p(-|l) 的概率映射来比较真实报告与生成报告，从而建模疾病状态的一致性。
评估使用 SCST 风格的策略梯度来优化期望奖励；真实标签对齐驱动语言流畅性和临床准确性。

实验结果

研究问题

RQ1一个分层的图像到文本模型是否能够生成既流畅又具临床准确性的放射科报告？
RQ2引入临床一致性奖励是否能在不牺牲可读性的前提下改善 CheXpert 驱动的疾病状态对齐？
RQ3所提出的方法与对大规模胸部X线数据集的最先进放射科报告生成基线相比如何？
RQ4将 NLG 和 CCR 奖励结合起来，与单独优化其中一个相比有何影响？

主要发现

完整模型在临床疾病注释准确性（CheXpert 一致性）方面达到最高，同时保持稳健的 NLG 指标。
以 NLG 为重点的变体在 CIDEr 和相关语言指标上有所提升，但单独使用时在临床准确性方面收益有限。
仅 CCR 变体提高临床精确度/PPV，但可能降低召回率，凸显需要联合目标。
在 MIMIC-CXR 和 Open-I 上，所提方法优于包括 1-NN、Show & Tell、ShowAtten,& Tell，以及 TieNet 在语言与临床指标上的基线。
对具体重复句子的后处理删除可在不显著影响 NLG 指标的情况下提升可读性。
消融表明结合 NLG 与 CCR 奖励在语言质量和临床对齐方面都达到最佳综合表现。
Open-I 相比于 MIMIC-CXR 因较小的语料库和较低的疾病流行度而在模型性能和评估动态上有影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。