QUICK REVIEW

[论文解读] MIMIC-CXR: A large publicly available database of labeled chest radiographs

Alistair E. W. Johnson, Tom Pollard|arXiv (Cornell University)|Jan 21, 2019

COVID-19 diagnosis using AI参考文献 15被引用 206

一句话总结

MIMIC-CXR-JPG v2.0.0 是一个大规模、公开可用的数据集，包含来自贝斯以色列女执事医疗中心（2011–2016年）227,827次影像检查的377,110张去标识化胸部X光片，其14项放射学发现标签源自对自由文本放射科报告的自然语言处理。该数据集通过提供即用型、经基准测试的、具有一致数据划分和标签的数据集，实现了标准化、保护隐私的医学计算机视觉研究。

ABSTRACT

Chest radiography is an extremely powerful imaging modality, allowing for a detailed inspection of a patient's thorax, but requiring specialized training for proper interpretation. With the advent of high performance general purpose computer vision algorithms, the accurate automated analysis of chest radiographs is becoming increasingly of interest to researchers. However, a key challenge in the development of these techniques is the lack of sufficient data. Here we describe MIMIC-CXR-JPG v2.0.0, a large dataset of 377,110 chest x-rays associated with 227,827 imaging studies sourced from the Beth Israel Deaconess Medical Center between 2011 - 2016. Images are provided with 14 labels derived from two natural language processing tools applied to the corresponding free-text radiology reports. MIMIC-CXR-JPG is derived entirely from the MIMIC-CXR database, and aims to provide a convenient processed version of MIMIC-CXR, as well as to provide a standard reference for data splits and image labels. All images have been de-identified to protect patient privacy. The dataset is made freely available to facilitate and encourage a wide range of research in medical computer vision.

研究动机与目标

解决在训练和评估医学图像分析模型时，大规模、公开可用且已去标识化的胸部放射影像数据集稀缺的问题。
提供经过标准化处理的MIMIC-CXR数据库版本，具有统一的数据划分和标签，以减少研究间的变异性。
通过提供基于自然语言处理从放射科报告中预提取标签的参考数据集，支持医学计算机视觉研究的可重现性。
通过提供一个大规模、多样化且具有临床相关性的数据集，支持高性能计算机视觉算法在自动胸部X光片解读中的开发。
通过在公开发布前对所有图像和元数据进行去标识化，确保患者隐私。

提出的方法

该数据集源自MIMIC-CXR数据库，其中包含贝斯以色列女执事医疗中心2011至2016年间采集的胸部X光片。
所有图像均已去标识化，以保护患者隐私，确保符合健康数据监管要求。
使用两种自然语言处理工具处理放射科报告，提取14项标准化的放射学发现作为二值标签。
最终数据集包含227,827个独立影像检查的377,110张图像，具有统一的标签和数据划分。
数据集以JPG格式发布，以确保广泛的兼容性，并便于在深度学习工作流中使用。
提供了标准化的训练/验证/测试划分，以支持可重现的模型评估。

实验结果

研究问题

RQ1一个大规模、去标识化且公开可用的、具有标准化标签的胸部X光片数据集，是否能提升医学计算机视觉研究的可重现性？
RQ2对自由文本放射科报告进行自然语言处理，在多大程度上能生成可靠且一致的标签，用于自动胸部X光片分析？
RQ3标准化数据集与预标注发现的可用性，对深度学习模型在放射学中的性能和基准测试有何影响？
RQ4数据质量和标签一致性对医学影像中自动化诊断工具开发的影响如何？
RQ5像MIMIC-CXR-JPG这样大规模、多样化的数据集，能否支持通用计算机视觉模型在胸部X光片解读中的训练？

主要发现

该数据集包含377,110张来自227,827个独立影像检查的去标识化胸部X光片，采集时间跨度为2011年至2016年。
共通过自然语言处理技术从自由文本放射科报告中自动提取了14项放射学发现。
数据集以标准化的训练、验证和测试划分发布，以支持跨研究的一致性基准测试。
所有图像均已进行去标识化处理，以确保患者隐私并符合数据保护标准。
该数据集向研究人员免费开放，以加速医学计算机视觉和自动化放射学分析领域的创新。
预标注数据的可用性减少了对手动标注的需求，从而加快了AI模型的开发与评估速度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。