QUICK REVIEW

[論文レビュー] Med42-v2: A Suite of Clinical LLMs

Christophe Clément, Praveen K Kanithi|arXiv (Cornell University)|Aug 12, 2024

Health and Medical Research Impacts被引用数 9

ひとこと要約

Med42-v2 は、Llama3 を基盤とする臨床用 LLM のスイートで、医療データと多段階の整列でファインチューニングされ、ベースの Llama3 および GPT-4 を医療ベンチマークで凌駕します。

ABSTRACT

Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.

研究の動機と目的

医療分野における汎用 LLM の限界に対処し、臨床適合型モデルを構築する。
臨床的有用性を高めるため、Llama3/3.1 を専門的な医療データでファインチューニングする。
実世界の医療プロンプトに対応するため、マルチステージの好みの整列を適用する。
医療ベンチマーク全般で、ベースモデルおよび GPT-4 より優れた性能を示す。

提案手法

二段階トレーニング：臨床指示のファインチューニングを行い、その後好みの整列を行う。
データ：精選された医療・生物医学データに加え、言語・一般化を改善するための一般ドメインsubsetを26.5%含む。
訓練手法：出力トークンのみに対するバックプロパゲーションを用いるオートレグレッシブ損失、8192トークンのチャンク、システム/アシスタント/ユーザのプロンプト形式。
好みの整列：UltraFeedback と Snorkel-DPO データセットを用いた好みの整列、反復リウェイトと Direct Preference Optimization (DPO)。
ファインチューニング（8B/70B）および整列段階のハイパーパラメータが提供され、HuggingFace でモデルを公開。
Eleuther AI 評価ハーネスを用いた標準的な医療ベンチマークでの評価。

実験結果

リサーチクエスチョン

RQ1Med42-v2 モデルは、標準的な医療ベンチマークにおいて、ベースの Llama3 および GPT-4 と比較してどのような性能を示すか？
RQ2二段階プロセス（指示のファインチューニング + 多段階の好みの整列）は、応答の臨床的有用性と安全性を向上させるか？
RQ38Bおよび70Bパラメータ構成は、医療推論と事実的一致性においてどう比較されるか？
RQ4医療ドメインデータと一般ドメインデータの混合が、実際の臨床クエリ処理に与える影響は？

主な発見

モデル	MMLU-Pro	MMLU	MedMCQA	MedQA	USMLE	PubmedQA	ToxiGen	Avg
Mistral-7B-Instruct-v0.3	33.8	64.6	46.3	49.3	50.4	42.8	86.2	53.3
Llama3-8B-Instruct	48.2	72.9	59.7	61.6	60.4	69.8	78.5	64.4
Llama3.1-8B-Instruct	49.9	73.4	58.4	62.0	68.2	76.2	82.3	67.2
JSL-MedLlama-3-8B-v2.0	46.9	75.9	59.7	59.9	60.6	75.0	74.3	64.6
Med42-Llama3-8B	54.3	75.8	61.3	62.8	67.0	68.4	81.5	67.3
Med42-Llama3.1-8B	54.2	73.6	59.7	63.2	69.9	72.2	83.8	68.1
Gemma-2-9B	49.9	78.8	56.2	60.9	66.8	39.4	70.5	60.4
Falcon-11B	26.3	62.2	43.8	43.1	44.1	58.0	68.9	49.5
Gemma-2-27B	55.8	81.3	60.2	65.7	71.5	51.4	69.3	65.0
Mixtral-8x7B-Instruct	46.9	75.6	54.1	58.4	67.1	63.2	83.5	64.1
BiMediX (Eng)	49.7	74.9	61.1	65.1	66.4	77.8	43.2	62.6
Phi-3-Medium-128k-instruct	58.2	81.4	61.5	69.0	73.9	46.4	86.6	68.1
Mixtral-8x22B-Instruct	55.6	80.7	61.4	67.2	76.1	62.2	87.1	70.0
Llama3-70B-Instruct	64.2	86.0	72.0	78.9	83.6	71.8	87.6	77.7
Llama3.1-70B-Instruct	64.6	87.4	71.9	78.6	93.4	76.6	91.3	80.5
OpenBioLLM-70B	64.2	90.4	73.2	76.9	79.0	73.2	91.3	78.3
Med42-Llama2-70B	51.5	76.7	60.9	61.5	71.9	64.6	88.8	68.0
Med42-Llama3-70B	64.4	87.1	73.2	79.1	83.8	78.8	90.3	79.5
Med42-Llama3.1-70B	66.1	86.8	72.4	80.4	94.5	77.6	90.4	81.2
Mistral-Large-Instruct-2407	66.4	87.5	68.3	75.9	85.8	56.2	91.1	75.9
GPT-4.0	-	87.0	69.5	78.9	84.1	75.2	-	78.9
Llama3-70B-Instruct	70.2	89.3	75.8	81.9	95.5	74.6	90.7	82.6
Llama3.1-70B-Instruct	64.6	87.4	71.9	78.6	93.4	76.6	91.3	80.5

Med42-v2 は、複数の医療ベンチマークにおいて、元の Llama3 モデル（8Bおよび70B）および GPT-4 を上回りました。
大型モデル（70B）は性能が強く、ゼロショット評価の複数のデータセットで GPT-4 を上回ることがある。
臨床指示と整列は医療文脈での理解と推論の向上に寄与し、より安全で有用な臨床応答を実現。
UltraFeedback と Snorkel-DPO による整列は、完全な強化学習ループなしでスケーラブルで安定した調整を可能にする。
本結果はゼロショット評価に基づくものであり、実世界の臨床的有用性はさらなる評価が必要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。