Skip to main content
QUICK REVIEW

[論文レビュー] MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data

Tianyu Han, Lisa C. Adams|arXiv (Cornell University)|Apr 14, 2023
Artificial Intelligence in Healthcare and Education被引用数 104
ひとこと要約

この論文はオープンソースの医療LLM微調整データセットを提示し、USMLE自己評価タスクにおける微調整モデルと事前学習ベースラインを比較して、より大きな事前学習モデルと高品質な医療データが性能を向上させることを示しています。LoRAや8-bit手法などの訓練技術についても述べ、現地展開のプライバシー利点を強調しています。

ABSTRACT

As large language models (LLMs) like OpenAI's GPT series continue to make strides, we witness the emergence of artificial intelligence applications in an ever-expanding range of fields. In medicine, these LLMs hold considerable promise for improving medical workflows, diagnostics, patient care, and education. Yet, there is an urgent need for open-source models that can be deployed on-premises to safeguard patient privacy. In our work, we present an innovative dataset consisting of over 160,000 entries, specifically crafted to fine-tune LLMs for effective medical applications. We investigate the impact of fine-tuning these datasets on publicly accessible pre-trained LLMs, and subsequently, we juxtapose the performance of pre-trained-only models against the fine-tuned models concerning the examinations that future medical doctors must pass to achieve certification.

研究の動機と目的

  • 公開アクセス可能でオンプレミス対応の医療用言語モデルとトレーニングデータのコレクションを作成する。
  • 公開利用可能なLLMに対する微調整の医療タスクへの影響を評価する。
  • USMLE Step 1–3の自己評価に対するモデル性能を評価し、医療能力を測定する。
  • 医療AI展開におけるプライバシー、バイアス、信頼性の考慮事項について指針を提供する。

提案手法

  • Instruction-tuning用に再フォーマットした医療NLPタスクとインターネットソースデータの多様な混合からなるMedical Meadowを結成する。
  • フルファインチューニングおよびパラメータ効率的手法(LoRA、8-bitトレーニング)を用いてLLaMAベースモデル(7Bおよび13B)を微調整する。
  • 効率的なバッチサイズ256を実現するため、コサインスケジューラと勾配蓄積を用いて異なる学習率とエポック数で訓練する。
  • 画像ベースの質問を除外し、「Option: Answer」出力形式を適用したUSMLE Step 1, 2, and 3 自己評価データセットに対するゼロショット性能を評価する。
  • パフォーマンスと計算資源のトレードオフを評価するため、フルファインチューニングとLoRAおよび8-bitバリアントを比較する。

実験結果

リサーチクエスチョン

  • RQ1微調整済みの医療LLMはUSMLE自己評価タスクで事前学習のみのモデルを上回るか?
  • RQ2微調整後、モデルサイズ(7B対13B)は医療知識の性能にどのように影響するか?
  • RQ3パラメータ効率的チューニング(LoRA, 8-bit)はフルファインチューニングと比較して精度にどのような影響を与えるか?
  • RQ4データ品質とドメイン特異性を高める微調整データはUSMLE風味の性能を改善するか?

主な発見

モデルStep1Step2Step3
LLaMA 7b [15]0.1980.2020.203
Alpaca 7b naive [11]0.2750.2660.293
Alpaca 7b LoRA0.2200.1380.252
MedAlpaca 7b0.2970.3120.398
MedAlpaca 7b LoRA0.2310.2020.179
MedAlpaca 7b LoRA 8bit0.2310.2410.211
ChatDoctor (7b) [10]0.1870.1850.148
LLaMA 13b [15]0.2220.2480.277
Alpaca 13b naive0.3190.3120.301
MedAlpaca 13b0.4730.4770.602
MedAlpaca 13b LoRA0.2500.2550.255
MedAlpaca 13b LoRA 8bit0.1890.3030.289
  • 微調整済み MedAlpaca モデルは、USMLE Step 1, 2, 3 のベースライン(プレトレインのみ)を上回る。
  • MedAlpaca 13b は小型モデルよりも高い生のスコアを達成(Step 1: 0.473, Step 2: 0.477, Step 3: 0.602)。
  • LoRA および 8-bit の微調整はトレーニングを速くするが、通常は素の微調整と比較して精度を低下させる。
  • 大規模な事前学習モデルと高品質な医療データで性能が向上する。
  • オープンソースモデルは医療文脈におけるプライバシー問題に対処するための現場展開を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。