[论文解读] CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT
CheXbert 将一个在基于规则标签的生物医学预训练的 BERT,与在专家标签上进行微调并通过回译来增强,实现在 MIMIC-CXR 的放射科报告标注的最新水平,接近放射科医生的表现。
The extraction of labels from radiology text reports enables large-scale training of medical imaging models. Existing approaches to report labeling typically rely either on sophisticated feature engineering based on medical domain knowledge or manual annotations by experts. In this work, we introduce a BERT-based approach to medical image report labeling that exploits both the scale of available rule-based systems and the quality of expert annotations. We demonstrate superior performance of a biomedically pretrained BERT model first trained on annotations of a rule-based labeler and then finetuned on a small set of expert annotations augmented with automated backtranslation. We find that our final model, CheXbert, is able to outperform the previous best rules-based labeler with statistical significance, setting a new SOTA for report labeling on one of the largest datasets of chest x-rays.
研究动机与目标
- 实现可扩展的放射科报告标注,以支持大规模医学影像模型训练。
- 在结合现有基于规则的标签器的同时,融入高质量的专家注释。
- 通过使用回译增强和生物医学预训练,提升标签保真度。
提出的方法
- 使用一个带有 14 个任务特定头的 BERT-base 模型,用于 13 个观察和 No Finding。
- 在对专家标注数据进行微调前,先对规则基标签器(CheXpert)的输出进行预训练。
- 通过自动回译来增强专家注释,以增加训练信号。
- 使用在正、负和不确定提取任务上的加权 F1 指标进行评估。
- 与 CheXpert 和放射科医生基准进行比较,以建立 SOTA。
- 公开提供代码和权重,确保可重复性。
实验结果
研究问题
- RQ1一个在规则标签基础上进行生物医学预训练的 BERT 模型,结合有限的专家注释,是否能在放射科报告标注上超越现有的基于规则的标签器?
- RQ2回译增强是否提升性能?这样的模型能达到接近放射科医生级别的标注程度吗?
- RQ3使用生物医学预训练变体(BioBERT、BlueBERT 等)对下游标注性能有何影响?
- RQ4在不同观察项上,CheXbert 与 CheXpert 和放射科医生基准相比有何差异?
主要发现
| 模型 | F1 (95% CI) | 训练策略 |
|---|---|---|
| CheXbert (Tblue-hybrid-bt) | 0.798 (0.775, 0.816) | Tblue-hybrid-bt (CheXbert) |
| CheXpert | 0.743 (0.719, 0.764) | CheXpert labeler only |
| Radiologist Benchmark | 0.805 (0.784, 0.823) | Board-certified radiologist labels |
- CheXbert 实现了平均 F1 为 0.798(95% CI 0.775, 0.816),较 CheXpert 提升 0.055(95% CI 0.039, 0.070)。
- CheXbert 靠近放射科医生的表现,F1 为 0.805(放射科医生基准 0.805,95% CI 0.784, 0.823)。
- 回译增强的模型(带 BT 的 CheXbert 变体)优于未增强的基线,例如 T-blue-hybrid-bt 达到 0.798 F1。
- CheXpert 标签器在大多数观察项上被 CheXbert 超越;对 Pneumonia、Fracture、Consolidation、Enlarged Cardiomediastinum 和 No Finding 的提升最大。
- CheXbert 在多标签上显示出稳健的改进,在 14 种情况中有显著提升(与 CheXpert 的比较 p<0.001)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。