[論文レビュー] BianCang: A Traditional Chinese Medicine Large Language Model
BianCangは、Qwenを基盤とする二段階のTCM専用LLMで、継続的な事前学習を通じて広範な中医知識を注入し、監督付き微調整で現実世界のタスクと整合させ、11のテストセットにおいて症候判断と診断性能を強化している。
The surge of large language models (LLMs) has driven significant progress in medical applications, including traditional Chinese medicine (TCM). However, current medical LLMs struggle with TCM diagnosis and syndrome differentiation due to substantial differences between TCM and modern medical theory, and the scarcity of specialized, high-quality corpora. To this end, in this paper we propose BianCang, a TCM-specific LLM, using a two-stage training process that first injects domain-specific knowledge and then aligns it through targeted stimulation to enhance diagnostic and differentiation capabilities. Specifically, we constructed pre-training corpora, instruction-aligned datasets based on real hospital records, and the ChP-TCM dataset derived from the Pharmacopoeia of the People's Republic of China. We compiled extensive TCM and medical corpora for continual pre-training and supervised fine-tuning, building a comprehensive dataset to refine the model's understanding of TCM. Evaluations across 11 test sets involving 31 models and 4 tasks demonstrate the effectiveness of BianCang, offering valuable insights for future research. Code, datasets, and models are available on https://github.com/QLU-NLP/BianCang.
研究の動機と目的
- TCMに特化したLLMを開発し、正確な症候判断と疾病診断を実行できるようにする動機づけ。
- 継続的な事前学習を通じて広範なTCMと医療知識を注入し、堅固な知識基盤を確立する。
- 多様なTCM指示と実世界データを対象とした監視付き微調整で埋め込まれた知識を整合・活性化させる。
- 症候判断、診断、試験の複数のベースラインに対してBianCangを評価し、堅牢性を示す。
提案手法
- Qwenベースの基盤での二段階訓練:大規模TCM/医療コーパスと実データによる継続的事前学習、続いてドメイン特化指示による監視付き微調整。
- MedicalBooks、Encyclopedia、Literature、Pharmacopoeia、MedicalRecords、TCMSD&DD Records、および専門知識ベースを含む総合的な事前学習データセットの構築。
- ChP-TCMベースの指示データセット(ChP-KnowledgeQA、ChP-PrescriptionWriting)と医療記録・多-turn対話SFTデータセット(DISC-Med-SFT、MLEC-SFT、TCM-SFT variants)の開発。
- A100GPU上で2エポック、SWIFTを用いた全パラメータ微調整を適用し、正則化と訓練安定性ヒューリスティクスを2段階で実施した7Bおよび14Bスケールでのファインチューニング。
- 11のテストセットと4つのタスクにわたり評価を行い、GPT-4を含む広範なベースラインと比較してTCMの症候判断・疾病診断・試験の改善を検証。
実験結果
リサーチクエスチョン
- RQ1二段階訓練パラダイムを用いて、TCMに焦点を当てたLLMは優れた症候判断と診断を達成できるか。
- RQ2継続的な事前学習による広範なTCM/医療コーパスと実患者データが、TCMタスクの下流SFT性能にどのように影響するか。
- RQ3ChP-TCM指示セットによるターゲット整列は、現実世界の診断・治療計画能力をTCMで向上させるか。
- RQ4BianCangは複数の客観的・主観的評価次元で、既存のオープンソース医療・TCM LLMと比較してどうか。
主な発見
- BianCangは、11のテストセット・4つのタスク(症候判断、疾病診断、試験、医療知識)で、既存のオープンソースTCMおよび中国語医療LLMを上回った。
- TCMSDにおける直接推論モードで、BianCang-Qwen2.5-7B-Instructは78.90%の精度、CoTで82.10%を達成し、ベースラインのQwen2.5-7Bを大きく上回った。
- BianCangはゼロショットおよびFew-shotの試験設定のいずれにおいても堅牢な性能向上を示し、BC-Analytical評価による専門性、流暢さ、安全性において強い主観的評価を示した。
- 二段階の訓練アプローチ(継続的事前学習+SFT)は、埋め込まれた知識と指示適合能力の一貫性を高め、症候判断と診断タスクの性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。