QUICK REVIEW

[論文レビュー] MedAlpaca -- An Open-Source Collection of Medical Conversational AI Models and Training Data

Tianyu Han, Lisa C. Adams|arXiv (Cornell University)|Apr 14, 2023

Artificial Intelligence in Healthcare and Education被引用数 104

ひとこと要約

この論文はオープンソースの医療LLM微調整データセットを提示し、USMLE自己評価タスクにおける微調整モデルと事前学習ベースラインを比較して、より大きな事前学習モデルと高品質な医療データが性能を向上させることを示しています。LoRAや8-bit手法などの訓練技術についても述べ、現地展開のプライバシー利点を強調しています。

ABSTRACT

As large language models (LLMs) like OpenAI's GPT series continue to make strides, we witness the emergence of artificial intelligence applications in an ever-expanding range of fields. In medicine, these LLMs hold considerable promise for improving medical workflows, diagnostics, patient care, and education. Yet, there is an urgent need for open-source models that can be deployed on-premises to safeguard patient privacy. In our work, we present an innovative dataset consisting of over 160,000 entries, specifically crafted to fine-tune LLMs for effective medical applications. We investigate the impact of fine-tuning these datasets on publicly accessible pre-trained LLMs, and subsequently, we juxtapose the performance of pre-trained-only models against the fine-tuned models concerning the examinations that future medical doctors must pass to achieve certification.

研究の動機と目的

公開アクセス可能でオンプレミス対応の医療用言語モデルとトレーニングデータのコレクションを作成する。
公開利用可能なLLMに対する微調整の医療タスクへの影響を評価する。
USMLE Step 1–3の自己評価に対するモデル性能を評価し、医療能力を測定する。
医療AI展開におけるプライバシー、バイアス、信頼性の考慮事項について指針を提供する。

提案手法

Instruction-tuning用に再フォーマットした医療NLPタスクとインターネットソースデータの多様な混合からなるMedical Meadowを結成する。
フルファインチューニングおよびパラメータ効率的手法（LoRA、8-bitトレーニング）を用いてLLaMAベースモデル（7Bおよび13B）を微調整する。
効率的なバッチサイズ256を実現するため、コサインスケジューラと勾配蓄積を用いて異なる学習率とエポック数で訓練する。
画像ベースの質問を除外し、「Option: Answer」出力形式を適用したUSMLE Step 1, 2, and 3 自己評価データセットに対するゼロショット性能を評価する。
パフォーマンスと計算資源のトレードオフを評価するため、フルファインチューニングとLoRAおよび8-bitバリアントを比較する。

実験結果

リサーチクエスチョン

RQ1微調整済みの医療LLMはUSMLE自己評価タスクで事前学習のみのモデルを上回るか？
RQ2微調整後、モデルサイズ（7B対13B）は医療知識の性能にどのように影響するか？
RQ3パラメータ効率的チューニング（LoRA, 8-bit）はフルファインチューニングと比較して精度にどのような影響を与えるか？
RQ4データ品質とドメイン特異性を高める微調整データはUSMLE風味の性能を改善するか？

主な発見

モデル	Step1	Step2	Step3
LLaMA 7b [15]	0.198	0.202	0.203
Alpaca 7b naive [11]	0.275	0.266	0.293
Alpaca 7b LoRA	0.220	0.138	0.252
MedAlpaca 7b	0.297	0.312	0.398
MedAlpaca 7b LoRA	0.231	0.202	0.179
MedAlpaca 7b LoRA 8bit	0.231	0.241	0.211
ChatDoctor (7b) [10]	0.187	0.185	0.148
LLaMA 13b [15]	0.222	0.248	0.277
Alpaca 13b naive	0.319	0.312	0.301
MedAlpaca 13b	0.473	0.477	0.602
MedAlpaca 13b LoRA	0.250	0.255	0.255
MedAlpaca 13b LoRA 8bit	0.189	0.303	0.289

微調整済み MedAlpaca モデルは、USMLE Step 1, 2, 3 のベースライン（プレトレインのみ）を上回る。
MedAlpaca 13b は小型モデルよりも高い生のスコアを達成（Step 1: 0.473, Step 2: 0.477, Step 3: 0.602）。
LoRA および 8-bit の微調整はトレーニングを速くするが、通常は素の微調整と比較して精度を低下させる。
大規模な事前学習モデルと高品質な医療データで性能が向上する。
オープンソースモデルは医療文脈におけるプライバシー問題に対処するための現場展開を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。