[論文レビュー] ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences
ChiMed-GPTは、Ziya-13B-v2上に構築された中国語医療LLMで、4,096トークンの文脈を持ち、事前学習、教師ありファインチューニング、RLHFを通じて訓練され、中国語LLMの中で医療情報抽出、QA、対話タスクにおいて最先端の成果を達成します。
Recently, the increasing demand for superior medical services has highlighted the discrepancies in the medical infrastructure. With big data, especially texts, forming the foundation of medical services, there is an exigent need for effective natural language processing (NLP) solutions tailored to the healthcare domain. Conventional approaches leveraging pre-trained models present promising results in this domain and current large language models (LLMs) offer advanced foundation for medical text processing. However, most medical LLMs are trained only with supervised fine-tuning (SFT), even though it efficiently empowers LLMs to understand and respond to medical instructions but is ineffective in learning domain knowledge and aligning with human preference. In this work, we propose ChiMed-GPT, a new benchmark LLM designed explicitly for Chinese medical domain, and undergoes a comprehensive training regime with pre-training, SFT, and RLHF. Evaluations on tasks including information extraction, question answering, and dialogue generation demonstrate ChiMed-GPT's superior performance over general domain LLMs. Furthermore, we analyze possible biases through prompting ChiMed-GPT to perform attitude scales regarding discrimination of patients, so as to contribute to further responsible development of LLMs in the medical domain. The code and model are released at https://github.com/synlp/ChiMed-GPT.
研究の動機と目的
- 中国語医療LLMにおける領域知識のギャップと人間の好みとの整合性を解消する。
- 長い医療テキストをより適切に扱えるよう、文脈長を4,096トークンに増やす。
- データ拡張とリジェクションサンプリングを用いた事前学習、SFT、RLHFを含む完全な訓練体制を開発し、安全性と有用性を向上させる。
- 中国語医療文脈における情報抽出、質問応答、対話生成を評価する。
- 医療LLMの責任ある展開を導くための潜在的バイアスの分析を提供する。
提案手法
- CMDを用いた中国語医療データで一般ドメインLLM(Ziya-13B-v2)の事前学習を継続する(pre-train)。
- 中国語医療QAおよび対話データセット(ChiMed、CMD-SFT、MC、MedDialog)と安全プロンプトデータセットを用いて教師付きファインチューニング(SFT)を適用する。
- 拡張CMDデータ(Reward)を用いて報酬モデルを訓練し、リジェクションサンプリングを通じてRLHFを実施し、ファインチューニングのための上位応答を評価・選択する(GPT-4およびGPT-3.5-Turboの出力を含む)。
- データ拡張とリジェクションサンプリングを用いて人間の嗜好や安全性への整合性を高める。
- 文脈長を4,096トークンに設定し、bf16、ZeRO、フラッシュアテンションを用いたMegatron-LM風の分散トレーニングで効率化を図る。
- 情報抽出(NER)、QA(オープンエンドおよび選択式)、および多ターン対話タスクで訓練・評価する。
実験結果
リサーチクエスチョン
- RQ1事前学習、SFT、RLHFを含む完全な体制で訓練されたドメイン特化の医療LLMは、主要な中国語医療NLPタスクでどのように性能を示すか?
- RQ2文脈長を4,096トークンに拡大することで、長文の医療テキストの理解と生成は改善されるか?
- RQ3データ拡張とリジェクションサンプリングRLHFは、医療応答の人間の嗜好や安全性への整合性を改善できるか?
- RQ4中国語のNER、QA、対話タスクにおけるChiMed-GPTの、一般ドメインおよび他の医療ドメインLLMと比較した性能はどうか?
- RQ5出力にどのようなバイアスがあるか、標準化された尺度を用いた安全性/バイアス分析でChiMed-GPTはどの程度評価されるか?
主な発見
| C-Eval 精度 | CMMLU 精度 | MedQA 精度 | ChiMed 精度 | B-1 | B-2 | R-1 | R-L |
|---|---|---|---|---|---|---|---|
| 68.29 | 52.92 | 44.50 | 44.58 | 37.22 | 27.11 | 8.89 | 19.86 |
- ChiMed-GPTは、少数ショット設定で情報抽出(NER)において一般ドメイン・医療ドメインのベースラインを上回る。
- QAおよび多ターン対話ベンチマークでは、ChiMed-GPTはベースラインと比較して最先端に近い結果を達成(主要タスクでのBLEU/ROUGE精度向上など)。
- The model achieves strong NER F1 and QA metrics across CCKS-2019, ChiMST, C-Eval, CMMLU, and MedQA subsets, outperforming GPT-3.5-Turbo, GPT-4, Ziya-v1/v2, Baichuan, Taiyi, and MedicalGPT variants in several settings.
- RLHF with rejection sampling and augmented reward data improves alignment with human preferences and reduces unsafe content through safety-focused data (Safety-Prompts).
- Context length extension to 4,096 tokens enables better processing of long medical texts and supports more coherent long-form dialogue and information extraction.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。