QUICK REVIEW

[论文解读] Learning what to look in chest X-rays with a recurrent visual attention model

Petros-Pavlos Ypsilantis, Giovanni Montana|arXiv (Cornell University)|Jan 23, 2017

Advanced Neural Network Applications参考文献 9被引用 37

一句话总结

该论文提出了一种循环视觉注意机制模型（RAM），通过强化学习方法，使模型能够聚焦于胸部X光片中与诊断相关的关键区域，以检测心脏扩大或医疗设备。该模型仅使用500万个参数，便实现了91.0%和90.6%的准确率，与Inception-v3等更大规模模型相当，同时学习到与解剖学知识一致的任务特定注意策略。

ABSTRACT

X-rays are commonly performed imaging tests that use small amounts of radiation to produce pictures of the organs, tissues, and bones of the body. X-rays of the chest are used to detect abnormalities or diseases of the airways, blood vessels, bones, heart, and lungs. In this work we present a stochastic attention-based model that is capable of learning what regions within a chest X-ray scan should be visually explored in order to conclude that the scan contains a specific radiological abnormality. The proposed model is a recurrent neural network (RNN) that learns to sequentially sample the entire X-ray and focus only on informative areas that are likely to contain the relevant information. We report on experiments carried out with more than $100,000$ X-rays containing enlarged hearts or medical devices. The model has been trained using reinforcement learning methods to learn task-specific policies.

研究动机与目标

开发一种完全自动化的系统，仅使用历史标注的检查影像，学习检测胸部X光片中的放射学异常。
探究循环注意机制是否能够学习聚焦于图像中与诊断相关的关键区域，以实现准确分类。
通过学习任务特定的注意策略，在保持高性能的同时降低模型复杂度。
通过可视化注意路径实现可解释的诊断，使其与临床推理逻辑一致。

提出的方法

该模型使用带有凝视机制的循环神经网络（RNN），在每个时间步根据学习到的注意策略采样图像的小块区域。
在每个时间步，模型接收一个以从正态分布中采样位置为中心的凝视图像，其中两个不同尺寸的图像块用于捕捉局部上下文信息。
使用两个预训练的卷积自编码器堆叠作为编码器，从每个凝视图像中提取鲁棒特征。
将编码后的凝视表示与位置嵌入拼接，并通过全连接层生成上下文向量，输入LSTM核心模块。
LSTM核心模块维护一个隐藏状态，用于引导注意机制；LSTM的输出通过从高斯分布中可微采样，用于预测下一个凝视位置。
在固定步数后，使用最终的LSTM隐藏状态对图像进行分类，判断其为正常、心脏扩大或含有医疗设备。

实验结果

研究问题

RQ1循环视觉注意模型能否学习聚焦于胸部X光片中与诊断相关的关键区域，以实现异常检测？
RQ2模型学习到的注意策略是否与医疗设备和心脏扩大通常可见的已知解剖位置一致？
RQ3RAM模型是否能在显著减少参数量的情况下，实现与最先进CNN模型相当的分类性能？
RQ4模型的注意行为在训练过程中如何演变？是否收敛至具有临床意义的探索策略？

主要发现

RAM模型在独立测试集上检测心脏扩大的准确率达到91.0%，检测医疗设备的准确率为90.6%。
该结果与Inception-v3相当（分别达到91.4%和91.3%），但参数量仅为后者的25%（500万 vs. 2100万）。
模型学习到的注意策略系统性地聚焦于肺部和脊柱区域，这些区域是医疗植入物的典型位置。
在检测心脏扩大时，模型学习到探索心脏轮廓及其边缘区域，与临床评估心肌肥大的方式一致。
注意路径的可视化显示，模型初期随机探索，但在数百个训练周期后迅速学会集中于解剖学相关区域。
模型的注意行为具有可解释性，高注意力区域与各类病理的已知放射学标志点高度匹配。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。