Skip to main content
QUICK REVIEW

[论文解读] DeepLesion: Automated Deep Mining, Categorization and Detection of Significant Radiology Image Findings using Large-Scale Clinical Lesion Annotations

Ke Yan, Xiaosong Wang|arXiv (Cornell University)|Oct 4, 2017
COVID-19 diagnosis using AI参考文献 9被引用 43
一句话总结

该论文提出了DeepLesion,一个大规模放射科图像数据集,包含33,688张带病灶边界框的标注图像,支持自动化深度挖掘、将病灶无监督分类为五类(如肝肿瘤、肺结节),并利用深度卷积神经网络实现多类别病灶检测。该方法在使用伪标注标签的情况下实现了64.3%的检测准确率,显著优于单类别检测,证明了回顾性临床标注可无需新增标注工作即可支持可扩展的多用途CAD系统。

ABSTRACT

Extracting, harvesting and building large-scale annotated radiological image datasets is a greatly important yet challenging problem. It is also the bottleneck to designing more effective data-hungry computing paradigms (e.g., deep learning) for medical image analysis. Yet, vast amounts of clinical annotations (usually associated with disease image findings and marked using arrows, lines, lesion diameters, segmentation, etc.) have been collected over several decades and stored in hospitals' Picture Archiving and Communication Systems. In this paper, we mine and harvest one major type of clinical annotation data - lesion diameters annotated on bookmarked images - to learn an effective multi-class lesion detector via unsupervised and supervised deep Convolutional Neural Networks (CNN). Our dataset is composed of 33,688 bookmarked radiology images from 10,825 studies of 4,477 unique patients. For every bookmarked image, a bounding box is created to cover the target lesion based on its measured diameters. We categorize the collection of lesions using an unsupervised deep mining scheme to generate clustered pseudo lesion labels. Next, we adopt a regional-CNN method to detect lesions of multiple categories, regardless of missing annotations (normally only one lesion is annotated, despite the presence of multiple co-existing findings). Our integrated mining, categorization and detection framework is validated with promising empirical results, as a scalable, universal or multi-purpose CAD paradigm built upon abundant retrospective medical data. Furthermore, we demonstrate that detection accuracy can be significantly improved by incorporating pseudo lesion labels (e.g., Liver lesion/tumor, Lung nodule/tumor, Abdomen lesions, Chest lymph node and others). This dataset will be made publicly available (under the open science initiative).

研究动机与目标

  • 解决放射科深度学习中缺乏大规模、高质量标注医学图像数据集的问题。
  • 开发一种可扩展的、多用途的CAD框架,能够同时检测多种病灶类型,而非逐个针对一种疾病。
  • 利用PACS系统中未被充分利用的临床标注(如病灶直径、箭头)作为弱监督信号,用于病灶分类与检测。
  • 证明无监督深度聚类病灶特征可生成有意义的伪标签,从而提升检测性能。
  • 验证仅使用现有回顾性临床数据即可构建通用CAD系统的可行性,避免高昂的新标注成本。

提出的方法

  • 从10,825项检查和4,477名患者中收集的33,688张带书签的放射科图像中构建DeepLesion数据集,病灶边界框基于测量直径生成。
  • 应用无监督深度挖掘流程,包括迭代特征提取、聚类和CNN微调,以在无放射科医生标注类别的情况下发现潜在病灶类别。
  • 采用基于区域的卷积神经网络(R-CNN)框架,联合定位和分类多个类别的病灶,即使每幅图像仅标注一个病灶。
  • 引入一种新型评估协议,以预测框与真实框之间交并比(IoU)大于0.5作为检测准确率的评估标准,主指标中忽略病灶类别。
  • 在两种配置下评估性能:单类别检测(所有病灶视为一类异常)和多类别检测(使用聚类生成的伪类别)。
  • 将伪病灶标签引入训练过程,以提升泛化能力和检测准确率,证明自标注类别可增强模型性能。

实验结果

研究问题

  • RQ1能否通过回顾性临床标注中病灶特征的无监督深度聚类,生成有意义的伪病灶类别并提升检测性能?
  • RQ2与单类别检测相比,引入伪病灶标签(如肝病灶、肺结节)在多类别病灶检测模型中的准确率提升程度如何?
  • RQ3能否仅使用PACS系统中现有的、部分标注的临床数据,构建可扩展的、多用途的CAD系统,而无需新增专家标注?
  • RQ4在使用弱监督伪标签的情况下,检测准确率如何随不同IoU阈值变化?
  • RQ5单个深度学习模型能否有效同时检测多种病灶类型,即使每幅图像仅标注一个病灶?

主要发现

  • 当使用无监督伪病灶类别时,所提出的多类别病灶检测器在测试集上达到64.3%的检测准确率,而单类别检测的准确率为59.45%。
  • 在所有五个聚类(肝、肺、腹部、胸部淋巴结、混合病灶)中,伪病灶标签的使用使每类病灶的检测准确率提升了3–8%。
  • 肺结节和胸部淋巴结检测性能显著优于其他类别,准确率较单类别检测提升3–8%。
  • 该模型在Titan X GPU上处理512×512图像仅需88毫秒,表明具备实时推理可行性。
  • 许多误报经放射科医生验证后被确认为真实病灶,表明模型能检测出部分临床标注中遗漏的临床相关发现。
  • 不同IoU阈值下的检测准确率曲线(图5a)显示,多类别模型在所有阈值下均表现更优,尤其在较高IoU阈值下优势更明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。