QUICK REVIEW

[論文レビュー] MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks

Suhana Bedi, Hejie Cui|ArXiv.org|May 26, 2025

Topic Modeling被引用数 9

ひとこと要約

MedHELM は臨床医が検証した分類法と35のベンチマークを開発し、現実の医療タスクに対するLLMを総合的に評価する。コスト対性能分析と臨床医の判断と一致させたLLM陪審評価も提供。

ABSTRACT

While large language models (LLMs) achieve near-perfect scores on medical licensing exams, these evaluations inadequately reflect the complexity and diversity of real-world clinical practice. We introduce MedHELM, an extensible evaluation framework for assessing LLM performance for medical tasks with three key contributions. First, a clinician-validated taxonomy spanning 5 categories, 22 subcategories, and 121 tasks developed with 29 clinicians. Second, a comprehensive benchmark suite comprising 35 benchmarks (17 existing, 18 newly formulated) providing complete coverage of all categories and subcategories in the taxonomy. Third, a systematic comparison of LLMs with improved evaluation methods (using an LLM-jury) and a cost-performance analysis. Evaluation of 9 frontier LLMs, using the 35 benchmarks, revealed significant performance variation. Advanced reasoning models (DeepSeek R1: 66% win-rate; o3-mini: 64% win-rate) demonstrated superior performance, though Claude 3.5 Sonnet achieved comparable results at 40% lower estimated computational cost. On a normalized accuracy scale (0-1), most models performed strongly in Clinical Note Generation (0.73-0.85) and Patient Communication & Education (0.78-0.83), moderately in Medical Research Assistance (0.65-0.75), and generally lower in Clinical Decision Support (0.56-0.72) and Administration & Workflow (0.53-0.63). Our LLM-jury evaluation method achieved good agreement with clinician ratings (ICC = 0.47), surpassing both average clinician-clinician agreement (ICC = 0.43) and automated baselines including ROUGE-L (0.36) and BERTScore-F1 (0.44). Claude 3.5 Sonnet achieved comparable performance to top models at lower estimated cost. These findings highlight the importance of real-world, task-specific evaluation for medical use of LLMs and provides an open source framework to enable this.

研究の動機と目的

臨床医が検証した医療タスクの分類法を、5つのカテゴリー、22のサブカテゴリー、121のタスクにまたがって開発する。
公開データおよび私的データからの開放型・閉鎖型タスクを含む、分類法のすべての要素を網羅するベンチマークスイートを作成する。
実世界タスクベンチマークと新規のLLM-陪審評価を用いて、最前線のLLMを体系的に比較する。
ヘルスケア環境における導入判断を情報提供するためのコストと性能のトレードオフを評価する。
継続的で再現可能な医療LLM評価を可能にする、オープンで拡張可能なフレームワークとリーダーボードを提供する。

提案手法

29名の臨床医と共に分類法を共同開発し、サブカテゴリーを上位カテゴリーへマッピングする際の高い一致度（96.7%）を検証した。
22のサブカテゴリーを対象とする35のベンチマークを構築（既存17、再構成5、新規13；うち12はオープンEHRベース）
9つの最前線LLMに対して一様なプロンプトとデコードを適用し、閉じた形式のベンチマークには正解一致を、開放型のベンチマークにはLLM陪審アンサンブルを用いた。
LLM陪審は3モデル（GPT-4o、Claude 3.7 Sonnet、LLaMA 3.3 70B）を用いて、正確性、完全性、明確さを（1–5のリッカート尺度で）評価し、審査員の平均をとる。
臨床医の評価は、ICC比較によって金標準に対するLLM陪審の妥当性を検証する。
公開されている価格情報を用いたコスト対性能分析により、ベンチマーク全体の総評価コストを推定する。

実験結果

リサーチクエスチョン

RQ1臨床医が検証した分類法は、実世界の医療タスクを意味のある評価カテゴリにどれだけ適切に対応づけられるか。
RQ235ベンチマークのスイートは、ライセンス試験を超えた医療タスクを網羅できるか。
RQ3タスク固有の指標とLLM-陪審スコアで評価した場合、最前線のLLMは実世界の医療タスクでどのように比較されるか？
RQ4医療タスクのためにさまざまなLLMを導入する場合のコスト影響は何か？
RQ5LLM陪審アプローチは、従来の自動化指標より臨床医の評価と一致するか？

主な発見

モデル（スナップショット）	勝率 ↑	勝率 SD ↓	マクロ平均 ↑	SD ↓
DeepSeek R1	0.66	0.10	0.75	0.22
o3-mini (2025-01-31)	0.64	0.16	0.77	0.18
Claude 3.7 Sonnet (20250219)	0.64	0.13	0.73	0.21
Claude 3.5 Sonnet (20241022)	0.63	0.14	0.73	0.21
GPT-4o (2024-05-13)	0.57	0.17	0.73	0.18
Gemini 2.0 Flash	0.42	0.17	0.70	0.21
GPT-4o mini (2024-07-18)	0.39	0.18	0.71	0.20
Llama 3.3 Instruct (70B)	0.30	0.13	0.69	0.22
Gemini 1.5 Pro (001)	0.24	0.08	0.67	0.21

推論モデル（DeepSeek R1、o3-mini）は最も高いペアワイズ勝率を達成します（0.66と0.64）。
Claude 3.5 Sonnet は、推定コストを約40%抑えた競争力のある結果を提供します。
ほとんどのモデルはClinical Note Generation（0.74–0.85）およびPatient Communication & Education（0.76–0.89）で最も良い性能を示します。
Medical Research Assistance（0.65–0.75）およびClinical Decision Support（0.61–0.76）で中程度の性能。
Administration & Workflow タスクは比較的弱い（0.53–0.63）。
LLM-jury ICC は臨床医の評価とともに 0.47 で、ROUGE-L (0.36) および BERTScore-F (0.44) および平均的臨床医–臨床医の一致度 (0.43) を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。