[論文レビュー] LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation
この論文は、Radiology reports の評価のための LLM-RadJudge を提案し、GPT-4 を用いた放射線科医レベルの整合性を実現し、アクセスしやすく高速な評価のための 7B 蒸留(BioMistral-7B)を開発します。
Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, we construct a dataset using LLM evaluation results and perform knowledge distillation to train a smaller model. The distilled model achieves evaluation capabilities comparable to GPT-4. Our framework and distilled model offer an accessible and efficient evaluation method for radiology report generation, facilitating the development of more clinically relevant models. The model will be further open-sourced and accessible.
研究の動機と目的
- 放射線科レポート評価における言語的・臨床的指標の制限に対処する。
- 臨床的に関連する誤りを分類・集計することで放射線科レポートを評価するための LLM ベースのフレームワークを提案する。
- 放射線科医の注釈と比較して LLM の評価能力を判定するために放射線科医の注釈と対比させる。
- GPT-4 の性能に匹敵する低コストで効率的な 7B モデルを知識蒸留によって開発し、広範な利用を図る。
提案手法
- レポート評価を、偽陽性、欠落、位置の誤り、重症度の誤り、非現示比較の誤り、比較の欠落という6つの predefined カテゴリに基づいて臨床的に関連する誤りを分類・集計する形で定義する。
- 比較による誤り識別と総合スコアを出す要約を組み合わせた2段階のプロンプト戦略を用い、Chain-of-Thought/Chain-of-Density に着想を得て解釈性と放射線科医との Kendall’s tau の整合性を向上させる。
- ReXVal データセットにおける放射線科医の注釈に対して複数の LLM(GPT-4、GPT-3.5-turbo、PALM-2-bison、Gemini-pro、Llama2 variants、Mistral、Mixtral)を評価し Kendall’s tau を報告する。
- MIMIC-CXR レポートからの GPT-4 評価結果を用いた 10,197 対のデータセットを構築して supervisied fine-tuning を実施する。
- LoRA を用いて A100 GPU 上で Mistral-7B-Instruct-v0.1 と BioMistral-7B の蒸留を行い、GPT-4 の評価能力を再現するようファインチューニングを実施する。
実験結果
リサーチクエスチョン
- RQ1LLM は放射線科医の人間評価と同等の整合性を達成できるか、放射線科レポートを評価する際に?
- RQ2どの LLM が X 線レポート評価において放射線科医の注釈との最良の一致を提供するか?
- RQ3より小さく効率的なモデルを蒸留してGPT-4 の評価性能に匹敵し、より高速なスループットと低コストを実現できるか?
- RQ4放射線レポート評価のための蒸留を効果的に行うデータセットと学習戦略は?
主な発見
| グループ | 候補 | BLEU-2 ⬆ | BERTスコア ⬆ | CheXbert ⬆ | RadgraphF1 ⬆ | RadCliQ ⬇ |
|---|---|---|---|---|---|---|
| a: normal | GR1 | 0.472* | 0.728* | 0.787 | 0.600* | 1.52* |
| a: normal | GR2 | 0.778 | 0.886 | 0.305* | 0.671 | 0.829 |
| a: normal | GR3 | 0.717 | 0.903 | 0.965 | 0.722 | 0.854 |
| b: abnormal | GR1 | 0.114* | 0.486* | 0.792* | 0.196* | 2.889* |
| b: abnormal | GR2 | 0.850 | 0.869 | 0.942 | 0.602 | 0.819 |
| b: abnormal | GR3 | 0.634 | 0.794 | 0.858 | 0.511 | 1.375 |
- GPT-4-turbo は放射線科医の評価との一致度が最も高く( Kendall’s tau 0.7348)、放射線科医間の一致度に近い。
- GPT-4 は放射線レポート評価で標準指標(BLEU、BERTScore、CheXbert、RadGraph F1、RadCliQ)を上回る。
- 2段階のプロンプト戦略は Kendall’s tau を 0.6933 から 0.7348 に改善し、単一ステップのプロンプトと比較して改善。
- 蒸留モデル(BioMistral-7B および Mistral-7B)は Kendall’s tau をそれぞれ最大 0.7487 および 0.7118 に達し、BioMistral-7B がより良い整合性とより正規分布に近いエラー分布を示す。
- 蒸留された BioMistral-7B は応答時間が速くコストも低く、放射線科医レベルの評価能力を維持。
- このアプローチは放射線科医への過度な依存を避けつつ、実用的でアクセス可能な評価を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。