QUICK REVIEW

[논문 리뷰] LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

Zilong Wang, Xufang Luo|arXiv (Cornell University)|2024. 04. 01.

Topic Modeling인용 수 5

한 줄 요약

본 논문은 GPT-4를 활용해 방사선 전문의 수준의 정합성을 달성하고 접근 가능하고 빠른 평가를 위한 7B 증류(BioMistral-7B)를 개발한 LLM-RadJudge라는 LLM 기반 평가 프레임워크를 제시한다.

ABSTRACT

Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, we construct a dataset using LLM evaluation results and perform knowledge distillation to train a smaller model. The distilled model achieves evaluation capabilities comparable to GPT-4. Our framework and distilled model offer an accessible and efficient evaluation method for radiology report generation, facilitating the development of more clinically relevant models. The model will be further open-sourced and accessible.

연구 동기 및 목표

방사선 보고서 평가에서 언어 및 임상 지표의 한계를 해결한다.
임상적으로 관련된 오류를 분류하고 개수화하여 방사선 보고서를 평가하는 LLM 기반 프레임워크를 제안한다.
LLM을 방사선 전문의 주석과 대조하여 방사선 전문의 수준의 평가 능력을 확인한다.
GPT-4 성능에 맞추어 넓은 활용을 위한 저비용, 효율적인 7B 모델을 지식 증류를 통해 개발한다.

제안 방법

보고서 평가를 6개 미리 정의된 범주(false finding, omission, incorrect location, incorrect severity, incorrect non- present comparison, omission of comparison)에 따라 임상적으로 관련된 오류를 분류하고 개수를 세는 방식으로 프레이밍한다.
Chain-of-Thought/Chain-of-Density에서 영감을 얻은 해석 가능성 및 Kendall’s tau 정렬을 개선하기 위해 오류를 식별하는 비교 단계와 총점을 산출하는 요약의 2단계 프롬프트 전략을 사용한다.
ReXVal 데이터셋에서 방사선 전문의 주석 대비 다수의 LLM(GPT-4, GPT-3.5-turbo, PALM-2-bison, Gemini-pro, Llama2 variants, Mistral, Mixtral)을 평가하고 Kendall’s tau를 보고한다.
MIMIC-CXR 보고서에서 GPT-4 평가 결과를 사용해 감독 학습용으로 10,197쌍의 데이터셋을 구축한다.
LoRA를 사용해 A100 GPU에서 Mistral-7B-Instruct-v0.1 및 BioMistral-7B를 미세 조정해 GPT-4 평가 능력을 모방한다.

실험 결과

연구 질문

RQ1LLMs가 방사선 보고서를 평가할 때 인간 평가와 방사선 전문의 수준의 정합성에 도달할 수 있는가?
RQ2어떤 LLM이 X-ray 보고서 평가에 대해 방사선 전문의 주석과 가장 높은 일치도를 보이는가?
RQ3더 작고 효율적인 모델이 빠른 처리량과 낮은 비용으로 GPT-4의 평가 성능을 복제하도록 지식 증류될 수 있는가?
RQ4방사선 보고서 평가를 위한 효과적인 증류를 가능하게 하는 데이터셋과 학습 전략은 무엇인가?

주요 결과

그룹	후보자	BLEU-2 ⬆	BERTscore ⬆	CheXbert ⬆	RadgraphF1 ⬆	RadCliQ ⬇
a: normal	GR1	0.472*	0.728*	0.787	0.600*	1.52*
a: normal	GR2	0.778	0.886	0.305*	0.671	0.829
a: normal	GR3	0.717	0.903	0.965	0.722	0.854
b: abnormal	GR1	0.114*	0.486*	0.792*	0.196*	2.889*
b: abnormal	GR2	0.850	0.869	0.942	0.602	0.819
b: abnormal	GR3	0.634	0.794	0.858	0.511	1.375

GPT-4-turbo는 방사선 전문의 평가와 가장 높은 정렬( Kendall’s tau 0.7348)로, 방사선 전문의 간 평가일치도에 근접한다.
GPT-4는 방사선 보고서 평가에서 표준 지표(BLEU, BERTScore, CheXbert, RadGraph F1, RadCliQ)보다 우수한 성능을 보인다.
두 단계 프롬프트 전략은 단일 단계 프롬프트와 비교했을 때 Kendall’s tau를 0.6933에서 0.7348로 향상시킨다.
증류 모델(BioMistral-7B, Mistral-7B)은 각각 Kendall’s tau를 최대 0.7487, 0.7118까지 달성하며, BioMistral-7B가 더 나은 정합성과 더 일반적인 오차 분포를 보인다.
증류된 BioMistral-7B는 빠른 응답 시간과 더 낮은 비용을 제공하면서도 방사선 전문의 수준의 평가 능력을 보존한다.
이 접근 방식은 방사선 전문의에 과도하게 의존하지 않는 실용적이고 접근 가능한 평가를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.