[論文レビュー] Assessing Large Language Models for Medical QA: Zero-Shot and LLM-as-a-Judge Evaluation
本論文はiCliniqデータを用いた医療QAのゼロショット評価で五つのLLMをベンチマークし、自動指標(BLEU/ROUGE)とLLM-as-a-Judge評価を比較して医療的正確性と安全性を測定。大規模モデルほど性能が高く、Llama 3.3 70B Instructが先行。
Recently, Large Language Models (LLMs) have gained significant traction in medical domain, especially in developing a QA systems to Medical QA systems for enhancing access to healthcare in low-resourced settings. This paper compares five LLMs deployed between April 2024 and August 2025 for medical QA, using the iCliniq dataset, containing 38,000 medical questions and answers of diverse specialties. Our models include Llama-3-8B-Instruct, Llama 3.2 3B, Llama 3.3 70B Instruct, Llama-4-Maverick-17B-128E-Instruct, and GPT-5-mini. We are using a zero-shot evaluation methodology and using BLEU and ROUGE metrics to evaluate performance without specialized fine-tuning. Our results show that larger models like Llama 3.3 70B Instruct outperform smaller models, consistent with observed scaling benefits in clinical tasks. It is notable that, Llama-4-Maverick-17B exhibited more competitive results, thus highlighting evasion efficiency trade-offs relevant for practical deployment. These findings align with advancements in LLM capabilities toward professional-level medical reasoning and reflect the increasing feasibility of LLM-supported QA systems in the real clinical environments. This benchmark aims to serve as a standardized setting for future study to minimize model size, computational resources and to maximize clinical utility in medical NLP applications.
研究の動機と目的
- 医療QAの現代的LLMの大規模実データセット(iCliniq)に対する包括的ゼロショットベンチマークを提供する。
- モデルサイズ/アーキテクチャと医療QA性能の相関を評価する。
- 自動指標とLLM-as-a-Judgeによる臨床品質評価を組み合わせた標準化された二重評価フレームワークを導入・検証する。
- 臨床現場の正確性とリソース制約のバランスをとる展開ガイダンスを提供する。
提案手法
- 五つのLLMに対して標準化された医療プロンプトを用いたゼロショット評価プロトコルを適用する。
- 38,000のiCliniq Medical QAデータセットから3,000質問のサブセットで評価する。
- BLEUおよびROUGE指標を計算し語彙的類似性とカバレッジを評価する。
- LLM-as-a-Judgeフレームワーク(Claude Sonnet 4)を適用し、Medical Accuracy、Completeness、Safety、Clarity、Helpfulnessを5段階評価(重み付けスコア:30/25/20/15/10)で採点する。
- 従来のMedLMベースラインと結果を比較して改善を文脈化する。
実験結果
リサーチクエスチョン
- RQ1iCliniqデータセットを用いた五つの現代LLMはゼロショット医療QAタスクでどのように性能を示すか?
- RQ2ゼロショット設定におけるモデルサイズ/アーキテクチャと医療QA性能の関係はどうなるか?
- RQ3医療QAにおけるLLM-as-a-Judge評価は従来のBLEU/ROUGE指標とどのように一致するか?
- RQ4高精度な臨床環境とリソース制約のある設定でどのような導入ガイダンスを導き出せるか?
主な発見
| Model | BLEU-1 | BLEU-4 | ROUGE-1 | ROUGE-2 | ROUGE-L |
|---|---|---|---|---|---|
| Llama-3-8B-Instruct | 0.1739 | 0.0127 | 0.2419 | 0.0379 | 0.1219 |
| Llama 3.2 3B | 0.2012 | 0.0122 | 0.2588 | 0.0355 | 0.1258 |
| Llama 3.3 70B Instruct | 0.2207 | 0.0141 | 0.2761 | 0.0404 | 0.1306 |
| Llama-4-Maverick 17B 128E Instruct | 0.2089 | 0.0132 | 0.2597 | 0.0381 | 0.1260 |
| GPT-5-mini | 0.0124 | 0.0065 | 0.2024 | 0.0290 | 0.0914 |
- Llama 3.3 70B Instructが評価対象のモデル間で最も高いBLEU-1、ROUGE-1、ROUGE-Lを達成。
- Llama-4-Maverick 17Bは効率性でも競争力があり、70Bモデルに近い性能をはるかに少ないパラメータで発揮。
- GPT-5-miniは自動指標全体で低い成績を示し、実装/設定の問題を示唆。
- モデルサイズと医療QA性能には明確な正の相関があり、アーキテクチャの革新により小型モデルが大型モデルへ近づくことが可能。
- LLM-as-a-Judgeの結果は自動指標と一致し、評価フレームワークを裏付ける。
- 医療正確性はトップモデルで最も高く(4.83/5)、安全性はGPT-5-miniが最も高い(3.80/5)。ただし語彙メトリクスは弱い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。