[論文レビュー] Med42-v2: A Suite of Clinical LLMs
Med42-v2 は、Llama3 を基盤とする臨床用 LLM のスイートで、医療データと多段階の整列でファインチューニングされ、ベースの Llama3 および GPT-4 を医療ベンチマークで凌駕します。
Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.
研究の動機と目的
- 医療分野における汎用 LLM の限界に対処し、臨床適合型モデルを構築する。
- 臨床的有用性を高めるため、Llama3/3.1 を専門的な医療データでファインチューニングする。
- 実世界の医療プロンプトに対応するため、マルチステージの好みの整列を適用する。
- 医療ベンチマーク全般で、ベースモデルおよび GPT-4 より優れた性能を示す。
提案手法
- 二段階トレーニング:臨床指示のファインチューニングを行い、その後好みの整列を行う。
- データ:精選された医療・生物医学データに加え、言語・一般化を改善するための一般ドメインsubsetを26.5%含む。
- 訓練手法:出力トークンのみに対するバックプロパゲーションを用いるオートレグレッシブ損失、8192トークンのチャンク、システム/アシスタント/ユーザのプロンプト形式。
- 好みの整列:UltraFeedback と Snorkel-DPO データセットを用いた好みの整列、反復リウェイトと Direct Preference Optimization (DPO)。
- ファインチューニング(8B/70B)および整列段階のハイパーパラメータが提供され、HuggingFace でモデルを公開。
- Eleuther AI 評価ハーネスを用いた標準的な医療ベンチマークでの評価。
実験結果
リサーチクエスチョン
- RQ1Med42-v2 モデルは、標準的な医療ベンチマークにおいて、ベースの Llama3 および GPT-4 と比較してどのような性能を示すか?
- RQ2二段階プロセス(指示のファインチューニング + 多段階の好みの整列)は、応答の臨床的有用性と安全性を向上させるか?
- RQ38Bおよび70Bパラメータ構成は、医療推論と事実的一致性においてどう比較されるか?
- RQ4医療ドメインデータと一般ドメインデータの混合が、実際の臨床クエリ処理に与える影響は?
主な発見
| モデル | MMLU-Pro | MMLU | MedMCQA | MedQA | USMLE | PubmedQA | ToxiGen | Avg |
|---|---|---|---|---|---|---|---|---|
| Mistral-7B-Instruct-v0.3 | 33.8 | 64.6 | 46.3 | 49.3 | 50.4 | 42.8 | 86.2 | 53.3 |
| Llama3-8B-Instruct | 48.2 | 72.9 | 59.7 | 61.6 | 60.4 | 69.8 | 78.5 | 64.4 |
| Llama3.1-8B-Instruct | 49.9 | 73.4 | 58.4 | 62.0 | 68.2 | 76.2 | 82.3 | 67.2 |
| JSL-MedLlama-3-8B-v2.0 | 46.9 | 75.9 | 59.7 | 59.9 | 60.6 | 75.0 | 74.3 | 64.6 |
| Med42-Llama3-8B | 54.3 | 75.8 | 61.3 | 62.8 | 67.0 | 68.4 | 81.5 | 67.3 |
| Med42-Llama3.1-8B | 54.2 | 73.6 | 59.7 | 63.2 | 69.9 | 72.2 | 83.8 | 68.1 |
| Gemma-2-9B | 49.9 | 78.8 | 56.2 | 60.9 | 66.8 | 39.4 | 70.5 | 60.4 |
| Falcon-11B | 26.3 | 62.2 | 43.8 | 43.1 | 44.1 | 58.0 | 68.9 | 49.5 |
| Gemma-2-27B | 55.8 | 81.3 | 60.2 | 65.7 | 71.5 | 51.4 | 69.3 | 65.0 |
| Mixtral-8x7B-Instruct | 46.9 | 75.6 | 54.1 | 58.4 | 67.1 | 63.2 | 83.5 | 64.1 |
| BiMediX (Eng) | 49.7 | 74.9 | 61.1 | 65.1 | 66.4 | 77.8 | 43.2 | 62.6 |
| Phi-3-Medium-128k-instruct | 58.2 | 81.4 | 61.5 | 69.0 | 73.9 | 46.4 | 86.6 | 68.1 |
| Mixtral-8x22B-Instruct | 55.6 | 80.7 | 61.4 | 67.2 | 76.1 | 62.2 | 87.1 | 70.0 |
| Llama3-70B-Instruct | 64.2 | 86.0 | 72.0 | 78.9 | 83.6 | 71.8 | 87.6 | 77.7 |
| Llama3.1-70B-Instruct | 64.6 | 87.4 | 71.9 | 78.6 | 93.4 | 76.6 | 91.3 | 80.5 |
| OpenBioLLM-70B | 64.2 | 90.4 | 73.2 | 76.9 | 79.0 | 73.2 | 91.3 | 78.3 |
| Med42-Llama2-70B | 51.5 | 76.7 | 60.9 | 61.5 | 71.9 | 64.6 | 88.8 | 68.0 |
| Med42-Llama3-70B | 64.4 | 87.1 | 73.2 | 79.1 | 83.8 | 78.8 | 90.3 | 79.5 |
| Med42-Llama3.1-70B | 66.1 | 86.8 | 72.4 | 80.4 | 94.5 | 77.6 | 90.4 | 81.2 |
| Mistral-Large-Instruct-2407 | 66.4 | 87.5 | 68.3 | 75.9 | 85.8 | 56.2 | 91.1 | 75.9 |
| GPT-4.0 | - | 87.0 | 69.5 | 78.9 | 84.1 | 75.2 | - | 78.9 |
| Llama3-70B-Instruct | 70.2 | 89.3 | 75.8 | 81.9 | 95.5 | 74.6 | 90.7 | 82.6 |
| Llama3.1-70B-Instruct | 64.6 | 87.4 | 71.9 | 78.6 | 93.4 | 76.6 | 91.3 | 80.5 |
- Med42-v2 は、複数の医療ベンチマークにおいて、元の Llama3 モデル(8Bおよび70B)および GPT-4 を上回りました。
- 大型モデル(70B)は性能が強く、ゼロショット評価の複数のデータセットで GPT-4 を上回ることがある。
- 臨床指示と整列は医療文脈での理解と推論の向上に寄与し、より安全で有用な臨床応答を実現。
- UltraFeedback と Snorkel-DPO による整列は、完全な強化学習ループなしでスケーラブルで安定した調整を可能にする。
- 本結果はゼロショット評価に基づくものであり、実世界の臨床的有用性はさらなる評価が必要。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。