[論文レビュー] MEDITRON-70B: Scaling Medical Pretraining for Large Language Models
MEDITRON-7B および MEDITRON-70B は、厳選された医療データでの継続的事前訓練を通じて構築されたオープンソースの医療LLMであり、オープンモデルの中で最先端の結果を達成し、複数の医療ベンチマークで一部のクローズドモデルと競争力のある性能を示します。
Large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs' medical knowledge and reasoning capacities, the resulting models are either closed-source (e.g., PaLM, GPT-4) or limited in scale (<= 13B parameters), which restricts their abilities. In this work, we improve access to large-scale medical LLMs by releasing MEDITRON: a suite of open-source LLMs with 7B and 70B parameters adapted to the medical domain. MEDITRON builds on Llama-2 (through our adaptation of Nvidia's Megatron-LM distributed trainer), and extends pretraining on a comprehensively curated medical corpus, including selected PubMed articles, abstracts, and internationally-recognized medical guidelines. Evaluations using four major medical benchmarks show significant performance gains over several state-of-the-art baselines before and after task-specific finetuning. Overall, MEDITRON achieves a 6% absolute performance gain over the best public baseline in its parameter class and 3% over the strongest baseline we finetuned from Llama-2. Compared to closed-source LLMs, MEDITRON-70B outperforms GPT-3.5 and Med-PaLM and is within 5% of GPT-4 and 10% of Med-PaLM-2. We release our code for curating the medical pretraining corpus and the MEDITRON model weights to drive open-source development of more capable medical LLMs.
研究の動機と目的
- ドメイン特化の継続的事前訓練が大規模LLMの医療推論をどのように改善するかを示す。
- 再現可能な開発を可能にするためのオープンソースの医療事前訓練データ、訓練コード、モデルウェイトをリリースする。
- インコンテキスト学習とファインチューニングを用いて、主要な医療ベンチマークで MEDITRON を評価する。
- より大きなモデル(70B)がベースラインおよびクローズドLLMと医療タスクでどのように比較されるかを示す。
提案手法
- GAP-REPLAY の医療データ混合物(PubMed/PubMed Central 論文、要約、臨床ガイドライン、および経験リプレイコーパス)に基づく Llama-2 系モデルの継続的事前訓練。
- Llama/Llama-2/Falcon アーキテクチャをサポートし、効率的な訓練(DP/PP/TP、FlashAttention)を可能にする Megatron-LM へのエンジニアリング拡張。
- ハイパーパラメータ: cosine スケジュールを用いた AdamW; コンテキスト長 2048/4096; 32k BPE 語彙; ドメイン特化トークン処理。
- タスク固有の指示でのベンチマーク訓練セット(PubMedQA、MedMCQA、MedQA)に対する监督付きファインチューニング。
- 推論戦略として Top Token Selection、Chain-of-Thought prompting (CoT)、Self-Consistency CoT (SC-CoT) を含む。
- 4 つの医療ベンチマーク(MedQA、MedMCQA、PubMedQA、MMLU-Medical)で、インコンテキスト学習とファインチューニングの両方の体制で評価する。
実験結果
リサーチクエスチョン
- RQ1厳選された医療コーパスでの継続的事前訓練が、医療推論タスクにおける大規模LLMの性能にどのような影響を与えるか。
- RQ2インコンテキスト学習を用いる場合とファインチューニングを用いる場合で、7B から 70B へのパラメータ拡張は医療分野でどの程度の改善をもたらすか。
- RQ3高度な推論戦略(CoT、SC-CoT)は MEDITRON モデルの医療推論に実質的な利得を提供するか。
- RQ4オープンソースの医療LLMは、クローズドモデル(GPT-3.5、GPT-4、Med-PaLM)と標準的な医療ベンチマークでどの程度比較可能か。
- RQ5臨床ガイドライン、PubMed の要約/論文といったドメイン特化データが、医療事前訓練の有効性に対して一般データよりどの程度影響を与えるか。
主な発見
| モデル | MMLU-Medical | PubMedQA | MedMCQA | MedQA | MedQA-4-Option | 平均 | |
|---|---|---|---|---|---|---|---|
| Top Token Selection (Mistral-7B*) | 55.8±0.93 | 17.8±0.0 | 40.2 | 32.4 | 41.1 | 37.5 | n/a |
| Top Token Selection (Zephyr-7B-β*) | 63.3 | 46.0 | 43.0 | 42.8 | 48.5 | 48.7 | n/a |
| PMC-Llama-7B | 59.7 | 59.2 | 57.6 | 42.4 | 49.2 | 53.6 | n/a |
| Llama-2-7B | 56.3 | 61.8 | 54.4 | 44.0 | 49.6 | 53.2 | n/a |
| MEDITRON-7B | 55.6 | 74.4 | 59.2 | 47.9 | 52.0 | 57.5 | 42.8 |
| Llama-2-70B | 74.7 | 78.0 | 62.7 | 59.2 | 61.3 | 67.2 | 60.8 |
| MEDITRON-70B | 73.6 | 80.0 | 65.1 | 60.7 | 65.4 | 69.0 | 63.3 |
| Chain-of-thought (Llama-2-70B) | 76.7 | 79.8 | 62.1 | 60.8 | 63.9 | 68.7 | n/a |
| MEDITRON-70B (CoT) | 74.9 | 81.0 | 63.2 | 61.5 | 67.8 | 69.7 | n/a |
| Self-consistency CoT (Llama-2-70B) | 77.9 | 80.0 | 62.6 | 61.5 | 63.8 | 69.2 | n/a |
| MEDITRON-70B (SC-CoT) | 77.6 | 81.6 | 66.0 | 64.4 | 70.2 | 72.0 | n/a |
- インコンテキスト学習を用いた MEDITRON-7B は、いくつかのオープンベースラインよりも優れており、継続的な医療事前訓練が base Llama-2-7B より追加の利益をもたらす。
- MEDITRON-70B はベースの Llama-2-70B よりベンチマーク全体で大幅に改善され、PubMedQA および MedMCQA を含む。
- Self-Consistency CoT を用いた MEDITRON-70B は、評価された構成の中で最も高い平均正確度を示す(Table 5 の Avg で 72.0%)。
- 70B では MEDITRON-70B が一部の商用 LLM の性能に近づき、いくつかのタスクで GPT-3.5 および Med-PaLM を上回る一方、いくつかの指標では GPT-4/Med-PaLM-2 に及ばない。
- MedQA に類似したタスクでの好成績を示し、PubMedQA のインコンテキスト結果はファインチューニング済みのベースラインに近い(例: 79.8% in-context vs 80.0% finetuned)。
- リリースにはオープン開発を支えるための厳選された医療事前訓練コーパス、訓練ライブラリ、モデルウェイトが含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。