[論文レビュー] Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue
Zhongjing は、フル学習パイプライン(事前学習、SFT、RLHF)を使用し、大規模な多ターンの医師-患者データセット(CMtMedQA)を活用する、LLaMA ベースの最初の中国語医療LLM です。オープンソースの中国語医療LLMを上回り、パラメータ数を大幅に抑えつつ一部の領域でChatGPTに匹敵します。
Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot align responses with experts' intentions. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from continuous pre-training, SFT, to Reinforcement Learning from Human Feedback (RLHF). Additionally, we construct a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model's capability for complex dialogue and proactive inquiry initiation. We also define a refined annotation rule and evaluation criteria given the unique characteristics of the biomedical domain. Extensive experimental results show that Zhongjing outperforms baselines in various capacities and matches the performance of ChatGPT in some abilities, despite the 100x parameters. Ablation studies also demonstrate the contributions of each component: pre-training enhances medical knowledge, and RLHF further improves instruction-following ability and safety. Our code, datasets, and models are available at https://github.com/SupritYoung/Zhongjing.
研究の動機と目的
- 継続的事前学習、教師付き微調整、および人間のフィードバックからの強化学習を統合することにより、中国語医療LLMのギャップを埋める。
- 能動的な問いかけと複雑な相談を可能にする大規模な多ターン中国語医療対話データセットを作成する。
- 医療対話の能力・安全性・専門性をより良く評価するため、分野固有の注釈と評価基準を定義する。
- 事前学習とRLHFが医療知識、指示遵守、そして安全性に与える影響を示す。
提案手法
- Ziya-LLaMA をベースとして、多様な実世界の医療コーパスで継続的な事前学習を行い、医療知識を組み込む。
- 現実の医師-患者の対話から派生し、CMeKGと照合された70,000ターンの中国語多ターン医療対話データセット CMtMedQA の構築。
- 4種のSFTデータタイプ:単一ターンの医療対話、CMtMedQA多ターン対話、医療NLPタスク指示、および一般的な医療関連対話で、壊滅的忘却を緩和する。
- RLHF: 医療専門家6名を用いて20,000件のモデル出力を評価する洗練された注釈ルールを用い報酬モデルを訓練し、その後PPOを適用して専門家の意図に合わせる。
- 評価は3次元9能力フレームワークを採用し、安全性、専門性、流暢さの評価にはGPT-4/人間の専門家を用いる。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドの訓練(事前学習+SFT+RLHF)がオープンソースLLMの中国語医療能力に与える影響は?
- RQ2大規模で実世界の多ターン医療対話データセットは、中国語医療LLMにおける能動的な問診と診断推論を改善できるか?
- RQ3継続的な事前学習とRLHFが医療対話の安全性・専門性・流暢さにどのように寄与するか?
- RQ4Zhongjingは、既存のオープンソース中国語医療LLMおよびChatGPTと、複数の能力においてどのように比較されるか?
- RQ5LLMの医療対話の独自の要求を最もよく捉える評価基準は何か?
主な発見
- Zhongjingは、複数の能力次元でオープンソース中国語医療LLMのベースラインを上回る。
- モデルはChatGPTのパラメータの1%しか持たないにもかかわらず、いくつかの能力でChatGPTに匹敵する。
- CMtMedQAはモデルの多ターン対話と能動的な問診能力を大幅に向上させる。
- 事前学習は医療知識を向上させ、RLHFは指示遵守と安全性を向上させる;アブレーション実験は両方が重要であることを示す。
- 指示のスケーリングとドメイン固有データが性能を推進する;過度の蒸留データは実際の医療精度を害する可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。