Skip to main content
QUICK REVIEW

[论文解读] RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation

Saisha Pradeep Shetty, Roger E. Goldman|arXiv (Cornell University)|Mar 16, 2026
Artificial Intelligence in Healthcare and Education被引用 0
一句话总结

RadAnnotate 研究面向 RadGraph 风格的放射学实体,使用面向实体的 LLM 分类器、通过检索增强生成的合成数据,以及基于置信度的选择性自动化,以降低标注成本并实现更高效的自动化标注。

ABSTRACT

Radiology report annotation is essential for clinical NLP, yet manual labeling is slow and costly. We present RadAnnotate, an LLM-based framework that studies retrieval-augmented synthetic reports and confidence-based selective automation to reduce expert effort for labeling in RadGraph. We study RadGraph-style entity labeling (graph nodes) and leave relation extraction (edges) to future work. First, we train entity-specific classifiers on gold-standard reports and characterize their strengths and failure modes across anatomy and observation categories, with uncertain observations hardest to learn. Second, we generate RAG-guided synthetic reports and show that synthetic-only models remain within 1-2 F1 points of gold-trained models, and that synthetic augmentation is especially helpful for uncertain observations in a low-resource setting, improving F1 from 0.61 to 0.70. Finally, by learning entity-specific confidence thresholds, RadAnnotate can automatically annotate 55-90% of reports at 0.86-0.92 entity match score while routing low-confidence cases for expert review.

研究动机与目标

  • 表征面向实体的 LLM 标注器在 RadGraph 风格实体上的优点与失效模式。
  • 评估检索增强的合成放射报告是否能够训练出可靠的 RadGraph 实体标注器,尤其是对罕见类别。
  • 开发一个基于置信度的选择性自动化工作流,在最大化自动标注的同时将不确定的案例分流给专家。

提出的方法

  • 针对每种 RadGraph 实体类型(ANAT-DP、OBS-DP、OBS-DA、OBS-U)使用 QLoRA 进行指令微调,在句子级数据上训练四个独立的 Qwen2.5-7B 模型以实现实体特异性标注。
  • 将报告拆分为句子,产生约 2,425 条句子级训练样例,实现独立的句子级标注。
  • 通过关键词提取创建带检索增强的合成报告,检索与之相似的黄金报告作为少量样例,并用结构化提示生成带标注的句子。
  • 使用一个 LLM Judge(Qwen2.5-32B)对合成标签进行验证和校正,生成用于训练的最终合成数据集。
  • 在黄金数据上训练实体特异性分类器并与合成数据进行比较,以评估保真度与迁移能力。
  • 实现每个实体的置信度阈值,计算实体匹配分数,并部署一个具有报告级接受条件的完整自动化工作流。

实验结果

研究问题

  • RQ1RQ1:能否使用中等规模的 RadGraph 风格语料库的黄金数据构建一个可靠的实体标注器?
  • RQ2RQ2:检索增强的合成报告是否能提升稀疏或不确定类别的性能?
  • RQ3RQ3:在模型置信度下能安全地自动标注多少份报告,以及能节省多少专家时间?

主要发现

实体类型训练报告测试报告精确度召回率F1
ANAT-DP20334300.93020.94440.9372
OBS-DP18563860.92260.79670.8550
OBS-DA5521430.96640.94890.9576
OBS-U309520.82760.68570.7500
Aggregate4750-0.91170.84390.8747
  • 使用黄金数据训练的模型在整体表现上表现强劲(F1=0.8747;ANAT-DP F1=0.9372;OBS-DP F1=0.8550;OBS-DA F1=0.9576;OBS-U F1=0.7500)。
  • 仅合成数据的模型与黄金数据训练的模型非常接近,通常相差1–2个 F1 点,OBS-U 显示近似相同的表现(0.7564 对 0.7561)。
  • 合成增强(30%)在多数实体上稍微降低性能,但在极低资源场景下提升 OBS-U(如在 50 条黄金报告、50% 合成的情况下 F1 从 0.6053 提升到 0.6622)。
  • 在低资源设置(50 条黄金报告)下,增量合成数据使 OBS-U 的 F1 从 0.605 提升至 0.710,在 100% 合成数据时达到高位,再在 125–150% 合成数据时趋于平台期。
  • 基于置信度的路由实现对 1 万份报告语料库中最多自动标注 55% 的病例,接受率达到 95%,将人工标注时间从 333 小时降至大约 150 小时。
  • 采用 90% 与 95% 的接受门槛时,端到端自动化系统可接受 229–141 份报告,其余交由审核,自动匹配分数约在 0.86–0.92。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。