Skip to main content
QUICK REVIEW

[論文レビュー] LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation

Zilong Wang, Xufang Luo|arXiv (Cornell University)|Apr 1, 2024
Topic Modeling被引用数 5
ひとこと要約

この論文は、Radiology reports の評価のための LLM-RadJudge を提案し、GPT-4 を用いた放射線科医レベルの整合性を実現し、アクセスしやすく高速な評価のための 7B 蒸留(BioMistral-7B)を開発します。

ABSTRACT

Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, we construct a dataset using LLM evaluation results and perform knowledge distillation to train a smaller model. The distilled model achieves evaluation capabilities comparable to GPT-4. Our framework and distilled model offer an accessible and efficient evaluation method for radiology report generation, facilitating the development of more clinically relevant models. The model will be further open-sourced and accessible.

研究の動機と目的

  • 放射線科レポート評価における言語的・臨床的指標の制限に対処する。
  • 臨床的に関連する誤りを分類・集計することで放射線科レポートを評価するための LLM ベースのフレームワークを提案する。
  • 放射線科医の注釈と比較して LLM の評価能力を判定するために放射線科医の注釈と対比させる。
  • GPT-4 の性能に匹敵する低コストで効率的な 7B モデルを知識蒸留によって開発し、広範な利用を図る。

提案手法

  • レポート評価を、偽陽性、欠落、位置の誤り、重症度の誤り、非現示比較の誤り、比較の欠落という6つの predefined カテゴリに基づいて臨床的に関連する誤りを分類・集計する形で定義する。
  • 比較による誤り識別と総合スコアを出す要約を組み合わせた2段階のプロンプト戦略を用い、Chain-of-Thought/Chain-of-Density に着想を得て解釈性と放射線科医との Kendall’s tau の整合性を向上させる。
  • ReXVal データセットにおける放射線科医の注釈に対して複数の LLM(GPT-4、GPT-3.5-turbo、PALM-2-bison、Gemini-pro、Llama2 variants、Mistral、Mixtral)を評価し Kendall’s tau を報告する。
  • MIMIC-CXR レポートからの GPT-4 評価結果を用いた 10,197 対のデータセットを構築して supervisied fine-tuning を実施する。
  • LoRA を用いて A100 GPU 上で Mistral-7B-Instruct-v0.1 と BioMistral-7B の蒸留を行い、GPT-4 の評価能力を再現するようファインチューニングを実施する。

実験結果

リサーチクエスチョン

  • RQ1LLM は放射線科医の人間評価と同等の整合性を達成できるか、放射線科レポートを評価する際に?
  • RQ2どの LLM が X 線レポート評価において放射線科医の注釈との最良の一致を提供するか?
  • RQ3より小さく効率的なモデルを蒸留してGPT-4 の評価性能に匹敵し、より高速なスループットと低コストを実現できるか?
  • RQ4放射線レポート評価のための蒸留を効果的に行うデータセットと学習戦略は?

主な発見

グループ候補BLEU-2 ⬆BERTスコア ⬆CheXbert ⬆RadgraphF1 ⬆RadCliQ ⬇
a: normalGR10.472*0.728*0.7870.600*1.52*
a: normalGR20.7780.8860.305*0.6710.829
a: normalGR30.7170.9030.9650.7220.854
b: abnormalGR10.114*0.486*0.792*0.196*2.889*
b: abnormalGR20.8500.8690.9420.6020.819
b: abnormalGR30.6340.7940.8580.5111.375
  • GPT-4-turbo は放射線科医の評価との一致度が最も高く( Kendall’s tau 0.7348)、放射線科医間の一致度に近い。
  • GPT-4 は放射線レポート評価で標準指標(BLEU、BERTScore、CheXbert、RadGraph F1、RadCliQ)を上回る。
  • 2段階のプロンプト戦略は Kendall’s tau を 0.6933 から 0.7348 に改善し、単一ステップのプロンプトと比較して改善。
  • 蒸留モデル(BioMistral-7B および Mistral-7B)は Kendall’s tau をそれぞれ最大 0.7487 および 0.7118 に達し、BioMistral-7B がより良い整合性とより正規分布に近いエラー分布を示す。
  • 蒸留された BioMistral-7B は応答時間が速くコストも低く、放射線科医レベルの評価能力を維持。
  • このアプローチは放射線科医への過度な依存を避けつつ、実用的でアクセス可能な評価を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。