Skip to main content
QUICK REVIEW

[論文レビュー] Med42-v2: A Suite of Clinical LLMs

Christophe Clément, Praveen K Kanithi|arXiv (Cornell University)|Aug 12, 2024
Health and Medical Research Impacts被引用数 9
ひとこと要約

Med42-v2 は、Llama3 を基盤とする臨床用 LLM のスイートで、医療データと多段階の整列でファインチューニングされ、ベースの Llama3 および GPT-4 を医療ベンチマークで凌駕します。

ABSTRACT

Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.

研究の動機と目的

  • 医療分野における汎用 LLM の限界に対処し、臨床適合型モデルを構築する。
  • 臨床的有用性を高めるため、Llama3/3.1 を専門的な医療データでファインチューニングする。
  • 実世界の医療プロンプトに対応するため、マルチステージの好みの整列を適用する。
  • 医療ベンチマーク全般で、ベースモデルおよび GPT-4 より優れた性能を示す。

提案手法

  • 二段階トレーニング:臨床指示のファインチューニングを行い、その後好みの整列を行う。
  • データ:精選された医療・生物医学データに加え、言語・一般化を改善するための一般ドメインsubsetを26.5%含む。
  • 訓練手法:出力トークンのみに対するバックプロパゲーションを用いるオートレグレッシブ損失、8192トークンのチャンク、システム/アシスタント/ユーザのプロンプト形式。
  • 好みの整列:UltraFeedback と Snorkel-DPO データセットを用いた好みの整列、反復リウェイトと Direct Preference Optimization (DPO)。
  • ファインチューニング(8B/70B)および整列段階のハイパーパラメータが提供され、HuggingFace でモデルを公開。
  • Eleuther AI 評価ハーネスを用いた標準的な医療ベンチマークでの評価。

実験結果

リサーチクエスチョン

  • RQ1Med42-v2 モデルは、標準的な医療ベンチマークにおいて、ベースの Llama3 および GPT-4 と比較してどのような性能を示すか?
  • RQ2二段階プロセス(指示のファインチューニング + 多段階の好みの整列)は、応答の臨床的有用性と安全性を向上させるか?
  • RQ38Bおよび70Bパラメータ構成は、医療推論と事実的一致性においてどう比較されるか?
  • RQ4医療ドメインデータと一般ドメインデータの混合が、実際の臨床クエリ処理に与える影響は?

主な発見

モデルMMLU-ProMMLUMedMCQAMedQAUSMLEPubmedQAToxiGenAvg
Mistral-7B-Instruct-v0.333.864.646.349.350.442.886.253.3
Llama3-8B-Instruct48.272.959.761.660.469.878.564.4
Llama3.1-8B-Instruct49.973.458.462.068.276.282.367.2
JSL-MedLlama-3-8B-v2.046.975.959.759.960.675.074.364.6
Med42-Llama3-8B54.375.861.362.867.068.481.567.3
Med42-Llama3.1-8B54.273.659.763.269.972.283.868.1
Gemma-2-9B49.978.856.260.966.839.470.560.4
Falcon-11B26.362.243.843.144.158.068.949.5
Gemma-2-27B55.881.360.265.771.551.469.365.0
Mixtral-8x7B-Instruct46.975.654.158.467.163.283.564.1
BiMediX (Eng)49.774.961.165.166.477.843.262.6
Phi-3-Medium-128k-instruct58.281.461.569.073.946.486.668.1
Mixtral-8x22B-Instruct55.680.761.467.276.162.287.170.0
Llama3-70B-Instruct64.286.072.078.983.671.887.677.7
Llama3.1-70B-Instruct64.687.471.978.693.476.691.380.5
OpenBioLLM-70B64.290.473.276.979.073.291.378.3
Med42-Llama2-70B51.576.760.961.571.964.688.868.0
Med42-Llama3-70B64.487.173.279.183.878.890.379.5
Med42-Llama3.1-70B66.186.872.480.494.577.690.481.2
Mistral-Large-Instruct-240766.487.568.375.985.856.291.175.9
GPT-4.0-87.069.578.984.175.2-78.9
Llama3-70B-Instruct70.289.375.881.995.574.690.782.6
Llama3.1-70B-Instruct64.687.471.978.693.476.691.380.5
  • Med42-v2 は、複数の医療ベンチマークにおいて、元の Llama3 モデル(8Bおよび70B)および GPT-4 を上回りました。
  • 大型モデル(70B)は性能が強く、ゼロショット評価の複数のデータセットで GPT-4 を上回ることがある。
  • 臨床指示と整列は医療文脈での理解と推論の向上に寄与し、より安全で有用な臨床応答を実現。
  • UltraFeedback と Snorkel-DPO による整列は、完全な強化学習ループなしでスケーラブルで安定した調整を可能にする。
  • 本結果はゼロショット評価に基づくものであり、実世界の臨床的有用性はさらなる評価が必要。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。