[논문 리뷰] RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation
RadAnnotate는 RadGraph 스타일의 방사선학 엔티티를 주석하기 위해 엔티티별 LLM 분류기, 검색 기반 강화 합성 데이터, 신뢰도 기반 선택적 자동화를 활용하여 전문의 업무를 줄여 연구를 다룹니다.
Radiology report annotation is essential for clinical NLP, yet manual labeling is slow and costly. We present RadAnnotate, an LLM-based framework that studies retrieval-augmented synthetic reports and confidence-based selective automation to reduce expert effort for labeling in RadGraph. We study RadGraph-style entity labeling (graph nodes) and leave relation extraction (edges) to future work. First, we train entity-specific classifiers on gold-standard reports and characterize their strengths and failure modes across anatomy and observation categories, with uncertain observations hardest to learn. Second, we generate RAG-guided synthetic reports and show that synthetic-only models remain within 1-2 F1 points of gold-trained models, and that synthetic augmentation is especially helpful for uncertain observations in a low-resource setting, improving F1 from 0.61 to 0.70. Finally, by learning entity-specific confidence thresholds, RadAnnotate can automatically annotate 55-90% of reports at 0.86-0.92 entity match score while routing low-confidence cases for expert review.
연구 동기 및 목표
- 엔티티별 LLM 주석자의 강점 및 실패 모드를 RadGraph 스타일 엔티티에서 특성화한다.
- 검색 기반 강화 합성 방사선 보고서가 특히 드문 범주에 대해 신뢰할 수 있는 RadGraph 엔티티 주석자를 학습시킬 수 있는지 평가한다.
- 모델의 신뢰도 지침에 따라 자동 주석을 극대화하고 불확실한 케이스를 전문가에게 의뢰하는 신뢰도 안내 선택적 자동화 워크플로를 개발한다.
제안 방법
- sentence 단위로 QLoRA를 사용한 지시문 튜닝으로 RadGraph 엔티티 유형별(ANAT-DP, OBS-DP, OBS-DA, OBS-U) 네 개의 독립적인 Qwen2.5-7B 모델을 학습한다.
- 보고서를 문장으로 분할하여 약 2,425개의 문장 수준 학습 예제를 생성하고, 독립적인 문장 수준 주석이 가능하도록 한다.
- 키워드 추출을 통해 RAG 강화 합성 보고서를 만들고, 유사 골 보고서를 소샷 예시로 회수하며, 구조화된 프롬프트로 라벨이 붙은 문장을 생성한다.
- LLM Judge(Qwen2.5-32B)를 사용해 합성 라벨을 검증 및 수정하여 학습용 최종 합성 데이터셋을 생성한다.
- 골 데이터로 엔티티별 분류기를 학습하고 합성 데이터와의 성능 차이를 비교하여 충실도와 전달성을 평가한다.
- 엔티티별로 신뢰도 임계치를 구현하고 엔티티 매치 점수를 계산하며 보고서 수준 수락 기준으로 전체 자동화 워크플로우를 배포한다.
실험 결과
연구 질문
- RQ1RQ1: RadGraph 스타일의 중형 말뭉치에서 골 데이터로 신뢰할 수한 엔티티 주석자를 구축할 수 있는가?
- RQ2RQ2: 검색 기반 강화 합성 보고서가 희귀하거나 불확실한 범주에서 성능을 향상시킬 수 있는가?
- RQ3RQ3: 모델 신뢰도로 얼마나 많은 보고서를 안전하게 자동 주석할 수 있으며 전문가 시간은 얼마나 절약되는가?
주요 결과
| Entity Type | Train Reports | Test Reports | Precision | Recall | F1 |
|---|---|---|---|---|---|
| ANAT-DP | 2033 | 430 | 0.9302 | 0.9444 | 0.9372 |
| OBS-DP | 1856 | 386 | 0.9226 | 0.7967 | 0.8550 |
| OBS-DA | 552 | 143 | 0.9664 | 0.9489 | 0.9576 |
| OBS-U | 309 | 52 | 0.8276 | 0.6857 | 0.7500 |
| Aggregate | 4750 | - | 0.9117 | 0.8439 | 0.8747 |
- Gold-data trained models achieve strong aggregate performance (F1 = 0.8747; ANAT-DP F1 = 0.9372; OBS-DP F1 = 0.8550; OBS-DA F1 = 0.9576; OBS-U F1 = 0.7500).
- Synthetic-only models closely match gold-trained models, typically within 1–2 F1 points, with OBS-U showing near-identical performance (0.7564 vs. 0.7561).
- Synthetic augmentation (30%) can slightly reduce performance for most entities but improve OBS-U in a very low-resource regime (e.g., F1 from 0.6053 to 0.6622 in 50 gold reports with 50% synthetic).
- In low-resource settings (50 gold reports), incremental synthetic data boosts OBS-U F1 from 0.605 to 0.710 at 100% synthetic, plateaus around 125–150% synthetic data.
- Confidence-based routing enables automatic annotation of up to 55% of a 10,000-report corpus at 95% acceptance, reducing manual annotation time from 333 hours to about 150 hours.
- Using 90% and 95% acceptance thresholds, the end-to-end automation accepts 229–141 reports and defers the rest to review, with automated match scores around 0.86–0.92
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.