QUICK REVIEW

[論文レビュー] LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

Zilong Wang, Xufang Luo|arXiv (Cornell University)|Apr 1, 2024

Topic Modeling被引用数 5

ひとこと要約

この論文は、Radiology reports の評価のための LLM-RadJudge を提案し、GPT-4 を用いた放射線科医レベルの整合性を実現し、アクセスしやすく高速な評価のための 7B 蒸留（BioMistral-7B）を開発します。

ABSTRACT

Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, we construct a dataset using LLM evaluation results and perform knowledge distillation to train a smaller model. The distilled model achieves evaluation capabilities comparable to GPT-4. Our framework and distilled model offer an accessible and efficient evaluation method for radiology report generation, facilitating the development of more clinically relevant models. The model will be further open-sourced and accessible.

研究の動機と目的

放射線科レポート評価における言語的・臨床的指標の制限に対処する。
臨床的に関連する誤りを分類・集計することで放射線科レポートを評価するための LLM ベースのフレームワークを提案する。
放射線科医の注釈と比較して LLM の評価能力を判定するために放射線科医の注釈と対比させる。
GPT-4 の性能に匹敵する低コストで効率的な 7B モデルを知識蒸留によって開発し、広範な利用を図る。

提案手法

レポート評価を、偽陽性、欠落、位置の誤り、重症度の誤り、非現示比較の誤り、比較の欠落という6つの predefined カテゴリに基づいて臨床的に関連する誤りを分類・集計する形で定義する。
比較による誤り識別と総合スコアを出す要約を組み合わせた2段階のプロンプト戦略を用い、Chain-of-Thought/Chain-of-Density に着想を得て解釈性と放射線科医との Kendall’s tau の整合性を向上させる。
ReXVal データセットにおける放射線科医の注釈に対して複数の LLM（GPT-4、GPT-3.5-turbo、PALM-2-bison、Gemini-pro、Llama2 variants、Mistral、Mixtral）を評価し Kendall’s tau を報告する。
MIMIC-CXR レポートからの GPT-4 評価結果を用いた 10,197 対のデータセットを構築して supervisied fine-tuning を実施する。
LoRA を用いて A100 GPU 上で Mistral-7B-Instruct-v0.1 と BioMistral-7B の蒸留を行い、GPT-4 の評価能力を再現するようファインチューニングを実施する。

実験結果

リサーチクエスチョン

RQ1LLM は放射線科医の人間評価と同等の整合性を達成できるか、放射線科レポートを評価する際に？
RQ2どの LLM が X 線レポート評価において放射線科医の注釈との最良の一致を提供するか？
RQ3より小さく効率的なモデルを蒸留してGPT-4 の評価性能に匹敵し、より高速なスループットと低コストを実現できるか？
RQ4放射線レポート評価のための蒸留を効果的に行うデータセットと学習戦略は？

主な発見

グループ	候補	BLEU-2 ⬆	BERTスコア ⬆	CheXbert ⬆	RadgraphF1 ⬆	RadCliQ ⬇
a: normal	GR1	0.472*	0.728*	0.787	0.600*	1.52*
a: normal	GR2	0.778	0.886	0.305*	0.671	0.829
a: normal	GR3	0.717	0.903	0.965	0.722	0.854
b: abnormal	GR1	0.114*	0.486*	0.792*	0.196*	2.889*
b: abnormal	GR2	0.850	0.869	0.942	0.602	0.819
b: abnormal	GR3	0.634	0.794	0.858	0.511	1.375

GPT-4-turbo は放射線科医の評価との一致度が最も高く（ Kendall’s tau 0.7348）、放射線科医間の一致度に近い。
GPT-4 は放射線レポート評価で標準指標（BLEU、BERTScore、CheXbert、RadGraph F1、RadCliQ）を上回る。
2段階のプロンプト戦略は Kendall’s tau を 0.6933 から 0.7348 に改善し、単一ステップのプロンプトと比較して改善。
蒸留モデル（BioMistral-7B および Mistral-7B）は Kendall’s tau をそれぞれ最大 0.7487 および 0.7118 に達し、BioMistral-7B がより良い整合性とより正規分布に近いエラー分布を示す。
蒸留された BioMistral-7B は応答時間が速くコストも低く、放射線科医レベルの評価能力を維持。
このアプローチは放射線科医への過度な依存を避けつつ、実用的でアクセス可能な評価を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。