[论文解读] BIMCV COVID-19+: a large annotated dataset of RX and CT images from COVID-19 patients
一个大型公开的 BIMCV-COVID-19+ 数据集,包含来自1311名COVID-19+患者的胸部X线、DX、CT影像,附有放射学发现标注、ROI分割,并映射到UMLS CUIs,还有一个自动化的报告标签管线。
This paper describes BIMCV COVID-19+, a large dataset from the Valencian Region Medical ImageBank (BIMCV) containing chest X-ray images CXR (CR, DX) and computed tomography (CT) imaging of COVID-19+ patients along with their radiological findings and locations, pathologies, radiological reports (in Spanish), DICOM metadata, Polymerase chain reaction (PCR), Immunoglobulin G (IgG) and Immunoglobulin M (IgM) diagnostic antibody tests. The findings have been mapped onto standard Unified Medical Language System (UMLS) terminology and cover a wide spectrum of thoracic entities, unlike the considerably more reduced number of entities annotated in previous datasets. Images are stored in high resolution and entities are localized with anatomical labels and stored in a Medical Imaging Data Structure (MIDS) format. In addition, 10 images were annotated by a team of radiologists to include semantic segmentation of radiological findings. This first iteration of the database includes 1,380 CX, 885 DX and 163 CT studies from 1,311 COVID-19+ patients. This is, to the best of our knowledge, the largest COVID-19+ dataset of images available in an open format. The dataset can be downloaded from http://bimcv.cipf.es/bimcv-projects/bimcv-covid19.
研究动机与目标
- 提供一个大型开放的多机构COVID-19图像数据集,供AI研究用于辅助诊断、预后和分诊。
- 将放射学发现映射到标准统一医学语言系统(UMLS)CUIs,以实现跨语言的互操作标签。
- 标注放射学发现及定位,包括ROI分割,以支持监督学习(包括分割)。
- 在实现开放数据共享以供研究界使用的同时,确保健全的数据匿名化和伦理合规性。
提出的方法
- 汇总来自瓦伦西亚地区11家医院的胸部X线(CR/DX)和CT图像。
- 遵循DPO及类似HIPAA的保护措施,对报告和DICOM头中的患者数据进行去识别化,使用NER进行报告去标识化以及DICOM保密性配置。
- 通过以PadChest为基础的多标签LSTM并加入注意力机制的再训练,自动为报告分配放射科标签,包含COVID-19和COVID-19不确定术语,并将标签映射到UMLS CUIs。
- 由放射科医师使用XNAT OHIF Viewer对10张图像的ROI/真实区域进行注释,以实现语义分割(类似UNet)的训练。
- 将原始像素数据转换为16位PNG/nii.gz格式,并使用基于EfficientNet的网络估计图像投影/方向以标准化视图。
- 以Medical Imaging Data Structure (MIDS) 构建数据结构,将图像(nii.gz)、DICOM字段(JSON)和患者派生数据通过TSV/JSON元数据文件整合。
实验结果
研究问题
- RQ1如何有效地将来自西班牙放射科报告的放射学发现映射到UMLS CUIs,以实现跨语言的互操作标签?
- RQ2ROI注释和语义标签在训练COVID-19影像中的病变分割和检测模型方面有哪些用途?
- RQ3在大型开放数据集中,自动化COVID-19相关标签(COVID-19与COVID-19不确定)的质量和可靠性如何?
- RQ4相对于诊断时间点,BIMCV-COVID-19+数据在模态、设备和时间上的多样性与代表性如何?
主要发现
- 首个迭代包括来自1,311名患者的1,380份CX、885份DX和163份CT研究,使其成为发布时最重要的开放COVID-19影像数据集之一。
- 对10张图像进行了像素级ROI注释,标注关键发现(磨玻璃样影、实变等),以支持分割模型训练。
- 放射学标签映射到UMLS下的336个CUI,并新增COVID-19(CUI C5203670)和COVID-19不确定(CUI C5203671)的词汇,以聚焦COVID-19标签。
- 一个自动化多标签报告分类器(带注意力的双向LSTM)在包含COVID-19术语的标签集的验证集上实现F1-micro 0.922,在独立测试集上实现准确率0.8281。
- 对于COVID-19相关发现,分类器的精确度0.961,召回率0.925,F1 0.943;对于COVID-19不确定,精确度1.0,召回率0.846,F1 0.916。
- 在更广义实体集上的总体标签集性能为F1加权0.9320,F1-micro 0.9378,准确率0.8281。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。