[論文レビュー] Baichuan-M1: Pushing the Medical Capability of Large Language Models
Baichuan-M1 は 20兆トークン(うち 1兆医療データを含む)でゼロから訓練された医療専門特化の LLM で、医療能力を高めつつ一般タスクを維持します。Baichuan-M1-14B は公開利用にリリース。
The current generation of large language models (LLMs) is typically designed for broad, general-purpose applications, while domain-specific LLMs, especially in vertical fields like medicine, remain relatively scarce. In particular, the development of highly efficient and practical LLMs for the medical domain is challenging due to the complexity of medical knowledge and the limited availability of high-quality data. To bridge this gap, we introduce Baichuan-M1, a series of large language models specifically optimized for medical applications. Unlike traditional approaches that simply continue pretraining on existing models or apply post-training to a general base model, Baichuan-M1 is trained from scratch with a dedicated focus on enhancing medical capabilities. Our model is trained on 20 trillion tokens and incorporates a range of effective training methods that strike a balance between general capabilities and medical expertise. As a result, Baichuan-M1 not only performs strongly across general domains such as mathematics and coding but also excels in specialized medical fields. We have open-sourced Baichuan-M1-14B, a mini version of our model, which can be accessed through the following links.
研究の動機と目的
- 医療分野におけるデータと知識の複雑性のため、ドメイン特化型LLMの必要性を動機づける。
- ゼロからの訓練アプローチを説明し、一般スキルを維持しつつ医療能力に焦点を当てる。
- データ収集、フィルタリング、合成データ戦略、カリキュラム型訓練を示し、医療推論を向上させる。
提案手法
- 医療知識と一般能力の専用焦点を持って Baichuan-M1 をゼロから訓練する。
- 医療データ量を増やし、長いコンテキストウィンドウを段階的に拡大する3段階の事前訓練カリキュラムを用いる。
- 一般語彙と医療語彙を組み合わせた高度なトークナイザ設計を適用する(語彙サイズ 133,120)。
- 全局的なアテンションとスライディングウィンドウアテンションを交互に組み合わせた混合アーキテクチャを採用し、効率と性能のバランスを取る。
- 知識抽出、QA、長いコトン思想(CoT)を含む合成データ生成パイプラインと、医療推論を強化する実世界のケース推論データを組み込む。
- 安全性と整合性の目標に沿った一般および医療指示の多段階監視付きファインチューニングを実施する。
実験結果
リサーチクエスチョン
- RQ1一般的なパフォーマンスを損なうことなく、医療能力を最大化するためにゼロから大規模言語モデルを構築するにはどうすればよいか。
- RQ2データ戦略(品質、アップサンプリング、合成データ)は、医療知識、推論、長文コンテキスト処理をどのように最も向上させるか。
- RQ3ハイブリッドアテンション、より大きい KV キャッシュ、RoPE ベースといったアーキテクチャの選択が、医療タスクの文脈内学習と推論効率にどのような影響を与えるか。
主な発見
| モデル | ウィキ ↓ | LMB ↓ | PIQA ↑ | Hella ↑ | Wino ↑ | ARC-e ↑ | ARC-c ↑ | SIQA ↑ | BoolQ ↑ | 平均 ↑ | Niah ↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Baichuan | 15.39 | 14.93 | 79.01 | 61.70 | 63.47 | 77.92 | 43.46 | 45.81 | 66.40 | 62.54 | 93.6 |
| H.D.=128 | 15.72 | 15.67 | 77.41 | 60.63 | 62.17 | 77.04 | 40.59 | 43.38 | 63.20 | 60.63 | 92.3 |
| 75% swa | 15.43 | 14.87 | 79.12 | 60.16 | 64.59 | 78.02 | 43.24 | 46.21 | 66.64 | 62.57 | 89.4 |
| w/o swa | 17.18 | 16.28 | 76.72 | 60.77 | 64.00 | 72.86 | 42.62 | 45.97 | 63.56 | 60.93 | 93.3 |
| w/o conv | 17.97 | 16.96 | 77.04 | 58.71 | 60.75 | 76.15 | 39.32 | 42.80 | 63.34 | 59.73 | 88.4 |
| base=1e4 | 15.67 | 15.03 | 78.61 | 61.60 | 61.15 | 79.24 | 42.92 | 45.36 | 66.29 | 62.02 | 91.2 |
- Baichuan-M1-14B は一般タスク(数学、コーディング)で強力な性能を示し、医療領域でも優れている。
- 重複排除とアップサンプリングを組み合わせたデータ戦略は、重複排除のみの戦略より性能を向上させる。
- 医療データとコンテキスト長を段階的に増やす3段階訓練は、長文医療推論と正確性を支援する。
- 長いコトン思考生成を伴う合成医療データは推論能力を向上させ、医療知識と整合する。
- グローバルとスライディングウィンドウのハイブリッドアテンション設定は、長文コンテキスト検索を維持しつつ短文のベンチマークを改善する。
- Baichuan-M1-14B-Base、Baichuan-M1-14B-Base (Instruct) を公開リリースし、コミュニティ利用を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。