[論文レビュー] PediatricsGPT: Large Language Models as Chinese Medical Assistants for Pediatric Applications
PediatricsGPTは PedCorpus とトレーニングパイプラインを導入し、中国語の小児科LLMアシスタントを医療一般知識と小児科専門知識を備えて構築し、小児のベンチマークでオープンソースの中国語医療LLMsを上回る。
Developing intelligent pediatric consultation systems offers promising prospects for improving diagnostic efficiency, especially in China, where healthcare resources are scarce. Despite recent advances in Large Language Models (LLMs) for Chinese medicine, their performance is sub-optimal in pediatric applications due to inadequate instruction data and vulnerable training procedures. To address the above issues, this paper builds PedCorpus, a high-quality dataset of over 300,000 multi-task instructions from pediatric textbooks, guidelines, and knowledge graph resources to fulfil diverse diagnostic demands. Upon well-designed PedCorpus, we propose PediatricsGPT, the first Chinese pediatric LLM assistant built on a systematic and robust training pipeline. In the continuous pre-training phase, we introduce a hybrid instruction pre-training mechanism to mitigate the internal-injected knowledge inconsistency of LLMs for medical domain adaptation. Immediately, the full-parameter Supervised Fine-Tuning (SFT) is utilized to incorporate the general medical knowledge schema into the models. After that, we devise a direct following preference optimization to enhance the generation of pediatrician-like humanistic responses. In the parameter-efficient secondary SFT phase, a mixture of universal-specific experts strategy is presented to resolve the competency conflict between medical generalist and pediatric expertise mastery. Extensive results based on the metrics, GPT-4, and doctor evaluations on distinct doctor downstream tasks show that PediatricsGPT consistently outperforms previous Chinese medical LLMs. Our model and dataset will be open-source for community development.
研究の動機と目的
- 中国の小児科クリニシャン不足を解消する知能的な小児科相談アシスタントを作成する。
- 教科書、ガイドライン、知識グラフ、実際の医師-患者データからPedCorpusという高品質な多タスクの小児科指示データセットを構築する。
- 一般的な医療知識と小児科専門知識を融合する体系的なトレーニングパイプライン(CPT、FSFT、DFPO、MUE)を開発する。
- ハイブリッドな指示前学習、直接的フォロー優先度最適化、混合専門家の活用を通じて知識の不整合と多タスクの対立を緩和する。
- 既存の中国語医療LLMより小児特有のベンチマークと一般的な中国語医療タスクで顕著な性能向上を示す。
提案手法
- PedCorpusを三つのタスクタイプ(MedKQ&A、EviDiag、TreRecom)と専門ソース(教科書、ガイドライン、KG、実 Dialog)で作成する。
- 内部外部の医療知識を整合させるためのハイブリッド指示前学習機構を用いたContinuous Pre-Training(CPT)を適用する。
- 医療一般知識を注入するFull-parameter Supervised Fine-Tuning(FSFT)を実施し、その後人間の好み合わせを目指すDirect Following Preference Optimization(DFPO)を適用する。
- 普遍的-特定専門家(MUE)の混合を用いたパラメータ効率的SFTを実装し、一般ist-vs-小児適性の対立を解決する。
- PedCorpus-DFPOで嗜好ガイダンスを学習し、PedCorpus-PSFTで普遍的およびタスク特異的専門家を使って下流の小児科タスクを処理する。
- GPT-4と医師評価を用いて小児科ベンチマークと一般的な中国語医療タスクを評価する。
実験結果
リサーチクエスチョン
- RQ1高品質で多タスクの小児科指示データセットは、LLMが中国語で小児科特有の医療推論とガイダンスを実現できるか。
- RQ2ハイブリッドCPT、FSFT、DFPO、MUEからなる構造化されたトレーニングパイプラインは、既存の中国語医療LLMと比較して小児科の正確さ、安全性、医師に近い応答性を改善するか。
- RQ3PediatricsGPTは小児科の知識問題、エビデンスに基づく診断、治療推奨タスクでベースラインと比較してどうか。
- RQ4普遍-特定のLoRA専門家の混合は、一般的な医療知識と小児科専門性のバランスを取るのに有効か。
- RQ5データ品質と指示設計が小児科医療の文脈でモデルの頑健性と人間の整合性に与える影響は何か。
主な発見
| Benchmark | Model | ROUGE-1 | ROUGE-2 | ROUGE-L | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | GLEU | Distinct-1 | Distinct-2 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| MedKQ&A | PediatricsGPT-13B | 60.85 | 36.56 | 35.64 | 61.65 | 63.17 | 58.96 | 59.34 | 57.22 | 24.24 | 46.23 |
| EviDiag | PediatricsGPT-13B | 47.32 | 17.63 | 21.87 | 58.21 | 45.72 | 39.74 | 31.25 | 37.15 | 23.34 | 46.34 |
| TreRecom | PediatricsGPT-13B | 62.83 | 39.32 | 40.82 | 63.56 | 56.68 | 50.80 | 44.31 | 54.65 | 31.94 | 57.56 |
- PediatricsGPT-13Bは小児科ベンチマークで最高の結果を達成し、複数の指標で多くのベースラインを上回る。
- MedKQ&AでPediatricsGPT-13Bは60.85 ROUGE-1、36.56 ROUGE-2、35.64 ROUGE-L、61.65 BLEU-1、63.17 BLEU-2、58.96 BLEU-3、59.34 BLEU-4、57.22 BLEU-4、24.24 GLEU、46.23 Distinct-1、そして ? Distinct-2を達成(表からの値)。
- EviDiagでPediatricsGPT-13Bは47.32 ROUGE-1、17.63 ROUGE-2、21.87 ROUGE-L、58.21 BLEU-1、45.72 BLEU-2、39.74 BLEU-3、31.25 BLEU-4、37.15 GLEU、23.34 Distinct-1、46.34 Distinct-2を達成。
- TreRecomでPediatricsGPT-13Bは62.83 ROUGE-1、39.32 ROUGE-2、40.82 ROUGE-L、63.56 BLEU-1、56.68 BLEU-2、50.80 BLEU-3、44.31 BLEU-4、54.65 GLEU、31.94 Distinct-1、57.56 Distinct-2を達成。
- PediatricsGPT-7Bも競争力のある結果を示し、EviDiagで一部のベースラインよりROUGE-LとGLEUの向上を示すなど、小型モデルスケールでの小児科専門化の利点を示唆。
- 普遍-特定のLoRA専門家の混合(MUE)戦略とDFPOの整列は、アブレーション研究にも示されるように性能と安全性に大きく寄与。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。