QUICK REVIEW

[论文解读] RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation

Saisha Pradeep Shetty, Roger E. Goldman|arXiv (Cornell University)|Mar 16, 2026

Artificial Intelligence in Healthcare and Education被引用 0

一句话总结

RadAnnotate 研究面向 RadGraph 风格的放射学实体，使用面向实体的 LLM 分类器、通过检索增强生成的合成数据，以及基于置信度的选择性自动化，以降低标注成本并实现更高效的自动化标注。

ABSTRACT

Radiology report annotation is essential for clinical NLP, yet manual labeling is slow and costly. We present RadAnnotate, an LLM-based framework that studies retrieval-augmented synthetic reports and confidence-based selective automation to reduce expert effort for labeling in RadGraph. We study RadGraph-style entity labeling (graph nodes) and leave relation extraction (edges) to future work. First, we train entity-specific classifiers on gold-standard reports and characterize their strengths and failure modes across anatomy and observation categories, with uncertain observations hardest to learn. Second, we generate RAG-guided synthetic reports and show that synthetic-only models remain within 1-2 F1 points of gold-trained models, and that synthetic augmentation is especially helpful for uncertain observations in a low-resource setting, improving F1 from 0.61 to 0.70. Finally, by learning entity-specific confidence thresholds, RadAnnotate can automatically annotate 55-90% of reports at 0.86-0.92 entity match score while routing low-confidence cases for expert review.

研究动机与目标

表征面向实体的 LLM 标注器在 RadGraph 风格实体上的优点与失效模式。
评估检索增强的合成放射报告是否能够训练出可靠的 RadGraph 实体标注器，尤其是对罕见类别。
开发一个基于置信度的选择性自动化工作流，在最大化自动标注的同时将不确定的案例分流给专家。

提出的方法

针对每种 RadGraph 实体类型（ANAT-DP、OBS-DP、OBS-DA、OBS-U）使用 QLoRA 进行指令微调，在句子级数据上训练四个独立的 Qwen2.5-7B 模型以实现实体特异性标注。
将报告拆分为句子，产生约 2,425 条句子级训练样例，实现独立的句子级标注。
通过关键词提取创建带检索增强的合成报告，检索与之相似的黄金报告作为少量样例，并用结构化提示生成带标注的句子。
使用一个 LLM Judge（Qwen2.5-32B）对合成标签进行验证和校正，生成用于训练的最终合成数据集。
在黄金数据上训练实体特异性分类器并与合成数据进行比较，以评估保真度与迁移能力。
实现每个实体的置信度阈值，计算实体匹配分数，并部署一个具有报告级接受条件的完整自动化工作流。

实验结果

研究问题

RQ1RQ1：能否使用中等规模的 RadGraph 风格语料库的黄金数据构建一个可靠的实体标注器？
RQ2RQ2：检索增强的合成报告是否能提升稀疏或不确定类别的性能？
RQ3RQ3：在模型置信度下能安全地自动标注多少份报告，以及能节省多少专家时间？

主要发现

实体类型	训练报告	测试报告	精确度	召回率	F1
ANAT-DP	2033	430	0.9302	0.9444	0.9372
OBS-DP	1856	386	0.9226	0.7967	0.8550
OBS-DA	552	143	0.9664	0.9489	0.9576
OBS-U	309	52	0.8276	0.6857	0.7500
Aggregate	4750	-	0.9117	0.8439	0.8747

使用黄金数据训练的模型在整体表现上表现强劲（F1=0.8747；ANAT-DP F1=0.9372；OBS-DP F1=0.8550；OBS-DA F1=0.9576；OBS-U F1=0.7500）。
仅合成数据的模型与黄金数据训练的模型非常接近，通常相差1–2个 F1 点，OBS-U 显示近似相同的表现（0.7564 对 0.7561）。
合成增强（30%）在多数实体上稍微降低性能，但在极低资源场景下提升 OBS-U（如在 50 条黄金报告、50% 合成的情况下 F1 从 0.6053 提升到 0.6622）。
在低资源设置（50 条黄金报告）下，增量合成数据使 OBS-U 的 F1 从 0.605 提升至 0.710，在 100% 合成数据时达到高位，再在 125–150% 合成数据时趋于平台期。
基于置信度的路由实现对 1 万份报告语料库中最多自动标注 55% 的病例，接受率达到 95%，将人工标注时间从 333 小时降至大约 150 小时。
采用 90% 与 95% 的接受门槛时，端到端自动化系统可接受 229–141 份报告，其余交由审核，自动匹配分数约在 0.86–0.92。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。