[论文解读] RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation
RadAnnotate 研究面向 RadGraph 风格的放射学实体,使用面向实体的 LLM 分类器、通过检索增强生成的合成数据,以及基于置信度的选择性自动化,以降低标注成本并实现更高效的自动化标注。
Radiology report annotation is essential for clinical NLP, yet manual labeling is slow and costly. We present RadAnnotate, an LLM-based framework that studies retrieval-augmented synthetic reports and confidence-based selective automation to reduce expert effort for labeling in RadGraph. We study RadGraph-style entity labeling (graph nodes) and leave relation extraction (edges) to future work. First, we train entity-specific classifiers on gold-standard reports and characterize their strengths and failure modes across anatomy and observation categories, with uncertain observations hardest to learn. Second, we generate RAG-guided synthetic reports and show that synthetic-only models remain within 1-2 F1 points of gold-trained models, and that synthetic augmentation is especially helpful for uncertain observations in a low-resource setting, improving F1 from 0.61 to 0.70. Finally, by learning entity-specific confidence thresholds, RadAnnotate can automatically annotate 55-90% of reports at 0.86-0.92 entity match score while routing low-confidence cases for expert review.
研究动机与目标
- 表征面向实体的 LLM 标注器在 RadGraph 风格实体上的优点与失效模式。
- 评估检索增强的合成放射报告是否能够训练出可靠的 RadGraph 实体标注器,尤其是对罕见类别。
- 开发一个基于置信度的选择性自动化工作流,在最大化自动标注的同时将不确定的案例分流给专家。
提出的方法
- 针对每种 RadGraph 实体类型(ANAT-DP、OBS-DP、OBS-DA、OBS-U)使用 QLoRA 进行指令微调,在句子级数据上训练四个独立的 Qwen2.5-7B 模型以实现实体特异性标注。
- 将报告拆分为句子,产生约 2,425 条句子级训练样例,实现独立的句子级标注。
- 通过关键词提取创建带检索增强的合成报告,检索与之相似的黄金报告作为少量样例,并用结构化提示生成带标注的句子。
- 使用一个 LLM Judge(Qwen2.5-32B)对合成标签进行验证和校正,生成用于训练的最终合成数据集。
- 在黄金数据上训练实体特异性分类器并与合成数据进行比较,以评估保真度与迁移能力。
- 实现每个实体的置信度阈值,计算实体匹配分数,并部署一个具有报告级接受条件的完整自动化工作流。
实验结果
研究问题
- RQ1RQ1:能否使用中等规模的 RadGraph 风格语料库的黄金数据构建一个可靠的实体标注器?
- RQ2RQ2:检索增强的合成报告是否能提升稀疏或不确定类别的性能?
- RQ3RQ3:在模型置信度下能安全地自动标注多少份报告,以及能节省多少专家时间?
主要发现
| 实体类型 | 训练报告 | 测试报告 | 精确度 | 召回率 | F1 |
|---|---|---|---|---|---|
| ANAT-DP | 2033 | 430 | 0.9302 | 0.9444 | 0.9372 |
| OBS-DP | 1856 | 386 | 0.9226 | 0.7967 | 0.8550 |
| OBS-DA | 552 | 143 | 0.9664 | 0.9489 | 0.9576 |
| OBS-U | 309 | 52 | 0.8276 | 0.6857 | 0.7500 |
| Aggregate | 4750 | - | 0.9117 | 0.8439 | 0.8747 |
- 使用黄金数据训练的模型在整体表现上表现强劲(F1=0.8747;ANAT-DP F1=0.9372;OBS-DP F1=0.8550;OBS-DA F1=0.9576;OBS-U F1=0.7500)。
- 仅合成数据的模型与黄金数据训练的模型非常接近,通常相差1–2个 F1 点,OBS-U 显示近似相同的表现(0.7564 对 0.7561)。
- 合成增强(30%)在多数实体上稍微降低性能,但在极低资源场景下提升 OBS-U(如在 50 条黄金报告、50% 合成的情况下 F1 从 0.6053 提升到 0.6622)。
- 在低资源设置(50 条黄金报告)下,增量合成数据使 OBS-U 的 F1 从 0.605 提升至 0.710,在 100% 合成数据时达到高位,再在 125–150% 合成数据时趋于平台期。
- 基于置信度的路由实现对 1 万份报告语料库中最多自动标注 55% 的病例,接受率达到 95%,将人工标注时间从 333 小时降至大约 150 小时。
- 采用 90% 与 95% 的接受门槛时,端到端自动化系统可接受 229–141 份报告,其余交由审核,自动匹配分数约在 0.86–0.92。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。