[论文解读] RadGraph: Extracting Clinical Entities and Relations from Radiology Reports
RadGraph 引入了一个面向胸部 X 线报告的密集信息抽取架构,发布了带注释的数据集(开发、测试、推断),并提供一个深度学习模型(RadGraph Benchmark),在实体和关系抽取方面在很大程度上接近放射诊断医师的水平。
Extracting structured clinical information from free-text radiology reports can enable the use of radiology report information for a variety of critical healthcare applications. In our work, we present RadGraph, a dataset of entities and relations in full-text chest X-ray radiology reports based on a novel information extraction schema we designed to structure radiology reports. We release a development dataset, which contains board-certified radiologist annotations for 500 radiology reports from the MIMIC-CXR dataset (14,579 entities and 10,889 relations), and a test dataset, which contains two independent sets of board-certified radiologist annotations for 100 radiology reports split equally across the MIMIC-CXR and CheXpert datasets. Using these datasets, we train and test a deep learning model, RadGraph Benchmark, that achieves a micro F1 of 0.82 and 0.73 on relation extraction on the MIMIC-CXR and CheXpert test sets respectively. Additionally, we release an inference dataset, which contains annotations automatically generated by RadGraph Benchmark across 220,763 MIMIC-CXR reports (around 6 million entities and 4 million relations) and 500 CheXpert reports (13,783 entities and 9,908 relations) with mappings to associated chest radiographs. Our freely available dataset can facilitate a wide range of research in medical natural language processing, as well as computer vision and multi-modal learning when linked to chest radiographs.
研究动机与目标
- 定义一个覆盖临床相关信息且便于注释者使用的放射科报告信息抽取新架构。
- 创建带有认证放射科医师注释的开发和测试数据集,以实现密集实体与关系抽取。
- 训练并评估一个用于放射科报告的联合实体与关系抽取的深度学习模型(RadGraph Benchmark)。
- 发布一个推断数据集,将带注释的报告与胸部 X 线影像关联,以支持多模态学习。
- 推动医学 NLP 与多模态放射科应用的研究,使用 freely available 数据与模型。
提出的方法
- 提出一个包含四种实体类型(Anatomy、Observation: Definitely Present、Observation: Uncertain、Observation: Definitely Absent)和三种关系类型(Suggestive Of、Located At、Modify)的架构。
- 由放射科医生对 MIMIC-CXR 的 500 份报告进行注释,得到 14,579 个实体和 10,889 条关系,用于开发。
- 对来自 MIMIC-CXR 和 CheXpert 的 100 份报告(每份报告两名放射科医生)进行测试注释,以评估跨机构的泛化能力。
- 开发 RadGraph Benchmark,这是一个深度学习模型,能够联合或分别学习实体识别和关系抽取,实验中使用 BERT 系列及各种生物医学预训练。
- 通过对 220,763 份 MIMIC-CXR 报告和 500 份 CheXpert 报告运行 RadGraph Benchmark,创建一个推断数据集,产生数百万实体/关系并映射到胸部放射影像。
实验结果
研究问题
- RQ1一个紧凑的放射科特定信息抽取架构是否能够覆盖放射科报告中的广泛发现?
- RQ2现代 NLP 模型在从放射科文本中同时抽取实体和关系方面,相较于放射科医师的表现有多好?
- RQ3模型是否能够跨机构(MIMIC-CXR 与 CheXpert)实现实体与关系抽取的泛化?
- RQ4将带注释的报告与胸部 X 线影像链接以实现多模态学习的潜力有多大?
- RQ5在应用统一的放射科架构时,实际注释中的挑战和观察者之间的变异性是什么?
主要发现
- RadGraph Benchmark 在 MIMIC-CXR 的关系抽取微观 F1 为 0.82,CheXpert 为 0.73,实体识别微观 F1 在 (MIMIC-CXR/CheXpert) 分别为 0.94/0.91。
- 放射科医生的基准在实体识别上微观 F1 为 0.95–0.99,在关系抽取上为 0.83–0.95,优于两个数据集上的自动模型。
- 推断数据集包括对 220,763 份 MIMIC-CXR 报告(约 6 百万实体,约 4 百万关系)和 500 份 CheXpert 报告(约 13,783 实体,约 9,908 关系)进行注释,并映射到胸部放射影像。
- 在 Findings 与 Impression 部分的句子覆盖率较高,开发阶段平均句子覆盖率约为 87.7%,MIMIC-CXR 测试为 92.3%,CheXpert 测试为 70.7% 的句子、50.8% 的标记(tokens)。
- 观察者之间的一致性因任务和数据集而异,NER 的 Cohen’s Kappa 在 MIMIC-CXR 为 0.974,在 CheXpert 为 0.829;关系 Kappa 在 MIMIC-CXR 为 0.841,在 CheXpert 为 0.397。
- 该数据集聚焦于美国机构的胸部 X 线报告,并承认存在如非发现部分缺乏上下文、数据分布跨数据集潜在偏移等局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。