QUICK REVIEW

[论文解读] Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation

Hoo-Chang Shin, Kirk Roberts|arXiv (Cornell University)|Mar 28, 2016

Multimodal Machine Learning Applications参考文献 55被引用 33

一句话总结

该论文提出了一种循环神经网络级联模型，通过联合学习图像与文本上下文，实现对疾病位置、严重程度和受累器官的描述，从而提升胸部X光片的自动标注质量。通过使用RNN生成的上下文描述迭代优化疾病标签，并基于这些增强标签重新训练CNN，该方法在图像字幕生成质量方面取得显著提升，使用GRU的RNN时在测试集上的BLEU-1得分达到78.5。

ABSTRACT

Despite the recent advances in automatically describing image contents, their applications have been mostly limited to image caption datasets containing natural images (e.g., Flickr 30k, MSCOCO). In this paper, we present a deep learning model to efficiently detect a disease from an image and annotate its contexts (e.g., location, severity and the affected organs). We employ a publicly available radiology dataset of chest x-rays and their reports, and use its image annotations to mine disease names to train convolutional neural networks (CNNs). In doing so, we adopt various regularization techniques to circumvent the large normal-vs-diseased cases bias. Recurrent neural networks (RNNs) are then trained to describe the contexts of a detected disease, based on the deep CNN features. Moreover, we introduce a novel approach to use the weights of the already trained pair of CNN/RNN on the domain-specific image/text dataset, to infer the joint image/text contexts for composite image labeling. Significantly improved image annotation results are demonstrated using the recurrent neural cascade model by taking the joint image/text contexts into account.

研究动机与目标

为解决医学图像标注中上下文信息有限的问题，即疾病标签常缺乏关于位置、严重程度和受累器官的细节。
通过在CNN训练期间应用正则化技术，减轻胸部X光数据集中正常病例远多于病患病例的数据偏差。
通过利用来自放射科报告和MeSH标注的联合图像/文本上下文，提升图像字幕生成性能。
开发一种循环级联框架，通过RNN生成的上下文描述迭代优化图像标签，实现更准确、更详细的标注。
证明使用领域特定的端到端深度学习模型生成类似放射科医生描述的胸部X光片是可行的。

提出的方法

该方法首先使用从放射科报告和MeSH标注中挖掘出的疾病标签训练CNN以分类胸部X光片，并通过正则化缓解类别不平衡问题。
预训练的RNN从CNN的深层特征生成上下文描述（例如，“右上叶的钙化结节”），形成联合的图像/文本上下文向量。
RNN的输出用于使用更详细、富含上下文的疾病标签重新标注图像，例如将“钙化结节”替换为“左肺底部的小钙化结节”。
使用较低的初始学习率，使用新的上下文感知标签对CNN进行微调，并使用更新的图像嵌入重新训练RNN以生成更优的字幕。
该过程被形式化为一个循环级联：CNN和RNN通过前一次迭代的联合图像/文本上下文向量进行迭代微调，从而提升标签的粒度和字幕质量。
最终模型使用GRU或LSTM RNN，采用生成序列上的交叉熵损失函数，损失通过前一次迭代的联合上下文向量计算。

实验结果

研究问题

RQ1能否通过从放射科报告中提取的联合图像/文本上下文提升自动化胸部X光片标注的准确性和细节程度？
RQ2在深度学习训练过程中，如何有效缓解胸部X光数据集中正常与病患病例之间的数据不平衡问题？
RQ3使用RNN生成的上下文描述迭代优化图像标签，在多大程度上能提升图像字幕生成模型的性能？
RQ4循环级联的CNN与RNN模型能否在生成类似放射科医生描述的医学图像方面超越标准的CNN-RNN流水线？
RQ5从非结构化的放射科报告中挖掘细粒度疾病标注（如位置、严重程度）是否可行，并可用于训练更具信息量的图像分类器？

主要发现

使用GRU的循环神经网络级联模型在测试集上取得了78.5的BLEU-1得分，显著优于未使用联合图像/文本上下文的基线模型。
该模型在BLEU-N（N > 1）得分上表现更高，表明生成的字幕更全面地捕捉了上下文信息。
在使用上下文感知标签重新训练后，“钙化结节”病例数从139例增加到414例，“肺部不透明影”从65例增加到207例，表明标签粒度显著提升。
首次提及的疾病标签的平均病例数上升至83.89，标准差为86.07，表明经过上下文挖掘后标签分布更加均衡。
通过k-means聚类将高频疾病病例分组（k = Round(n/50)），实现了更精确的CNN微调，最终标签数从17个提升至57个。
最终模型中，GRU在BLEU-2、BLEU-3和BLEU-4得分上优于LSTM，而LSTM在BLEU-1得分上略高，表明在序列生成质量上存在权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。