[논문 리뷰] Ran Score: a LLM-based Evaluation Score for Radiology Report Generation
이 논문은 임상의-가이드 LLM 프레이크워크를 구축하여 방사선 보고서 생성을 위한 발견-수준 평가 지표 Ran Score를 제시하고, 21개의 흉부 X-ray 소견을 추출하며 모델 출력을 방사선과 의 reference와 정렬하고, 매크로 평균 성능과 교차 언어 강건성을 보여준다.
Chest X-ray report generation and automated evaluation are limited by poor recognition of low-prevalence abnormalities and inadequate handling of clinically important language, including negation and ambiguity. We develop a clinician-guided framework combining human expertise and large language models for multi-label finding extraction from free-text chest X-ray reports and use it to define Ran Score, a finding-level metric for report evaluation. Using three non-overlapping MIMIC-CXR-EN cohorts from a public chest X-ray dataset and an independent ChestX-CN validation cohort, we optimize prompts, establish radiologist-derived reference labels and evaluate report generation models. The optimized framework improves the macro-averaged score from 0.753 to 0.956 on the MIMIC-CXR-EN development cohort, exceeds the CheXbert benchmark by 15.7 percentage points on directly comparable labels, and shows robust generalization on the ChestX-CN validation cohort. Here we show that clinician-guided prompt optimization improves agreement with a radiologist-derived reference standard and that Ran Score enables finding-level evaluation of report fidelity, particularly for low-prevalence abnormalities.
연구 동기 및 목표
- 가슴 X-선 보고서에서 다중 라벨 소견을 추출하기 위한 임상의-가이드 프레임워크를 개발한다.
- Ran Score를 보고서 충실도의 발견-수준 매크로-평균 평가 지표로 정의한다.
- 가슴 X-선 소견(21-라벨 분류 체계)에 대한 크고 clinically 정렬된 라벨 자원을 만든다.
- 방사선 의가 도출한 참조(reference)와 대조하여 여러 방사선 보고서 생성 모델을 평가한다.
- 언어별 프롬트를 바꾸지 않고 ChestX-CN으로의 교차 언어 일반화 가능성을 시연한다.
제안 방법
- exploratory 추출 및 방사선과의 입력을 통해 21-label 흉부 X-ray 소견 분류 체계를 구축한다.
- 独立적으로 주석된 보고서에 대해 다수결(≥4/6) 방식으로 방사선과 참조 표준을 확립한다.
- 사람-LLM 협력 프레임워크를 사용하여 임상의 지도 프롬프트를 반복적으로 개선하고 높은 라벨-특이 정확도(≥90%)를 달성한다.
- 동의어, 부정, 저발생 라벨을 다루기 위한 오차 주도 분석으로 프롬프트를 최적화한다.
- 최적화된 프롬프트를 적용해 생성 및 참조 보고서에서 소견을 추출하고 Ran Score를 매크로-평균 F1로 계산한다.
- Ran Score와 전통적 지표를 사용하여 다수의 LLM 기반 보고서 생성 모델을 비교한다.

실험 결과
연구 질문
- RQ1임상의-가이드형 인간–LLM 프롬프트 루프가 21개 라벨에 걸쳐 LLM이 추출한 소견을 방사선의 참조 표준과 정렬시키는가?
- RQ2Ran Score가 낮발생 이상 소견에 중점을 두고 임상적으로 의미 있는 발견-수준 평가를 제공하는가?
- RQ3언어별 맞춤 없이 프롬프트 최적화 프레임워크가 MIMIC-CXR-EN에서 ChestX-CN으로 얼마나 잘 일반화되는가?
- RQ4Ran Score로 평가할 때 다양한 흉부 X-ray 보고서 생성 모델의 성능은 기존 지표 대비 어떤가?
- RQ5소수-shot 프롬프트 최적화가 레이블 간 매크로- vs 마이크로- 평균 성능에 미치는 영향은?
주요 결과
- 프롬프트 최적화 후 MIMIC-CXR-EN 개발 코호트에서 발견 추출의 매크로-평균 F1 점수가 0.753에서 0.956으로 향상되었다.
- Ran Score가 동등 비교 가능한 라벨에서 CheXbert보다 15.7포인트 높은 성능을 보였다.
- 최적화 후 Fracture, Pneumothorax, Cavity and Cyst 등 여러 라벨에서 F1 점수가 완벽에 가까워졌다.
- Qwen3-14B는 다수의 소견에 대해 라벨별 정확도가 높고 ChestX-CN으로의 강건한 교차-언어 일반화를 보여 다양한 라벨에서 높은 정확도 달성.
- 생성 보고서 모델 중 LLM-RG4가 Ran Score 하에서 매크로-평균 F1이 가장 높았고, R2GenGPT 등도 뒤를 이었으며, XrayGPT는 매크로-평균 평가에서 최하위를 보였다.
- 정성적 방사선과 의사 리뷰가 자동 Ran Score 순위와 일치하여 평가 프레임워크의 임상적 타당성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.