[论文解读] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation
DISC-MedLLM 通过将来自医疗知识图谱、现实对话和人工偏好改写的高质量监督微调数据组合起来,训练一个聚焦医疗领域的大模型,在参数为 13B 的中国医学领域大模型中,在单轮和多轮医疗咨询任务上实现优越的性能。
We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM
研究动机与目标
- 说明需要能够进行端到端咨询的可靠、多轮医疗大模型的必要性。
- 从医疗知识图谱、真实的医患对话以及人工指导偏好中构建高质量的监督微调数据。
- 训练一个 13B 参数的中文大模型,以提升在医疗场景中的准确性、可靠性和多轮询问能力。
- 在单轮和多轮基准测试上进行评估,以证明相较于现有医疗大模型的改进。
- 公开数据集和模型权重,促进进一步的研究与发展。
提出的方法
- 从三个数据流构建 DISC-Med-SFT:知识图谱驱动的问答对、重构的真实医患对话,以及人工偏好引导的样本。
- 在环的大语言模型改写(ChatGPT)用于在保持医疗保真度的前提下重写并增强数据。
- 在 Baichuan-13B-Base(13B 参数)上采用两阶段监督微调:阶段1用于领域知识和对话能力;阶段2用于人类偏好对齐。
- 引入 3.4 万以上的通用领域样本,以保持基础能力并避免过于专精。
- 用单轮多选题基准和多轮模拟咨询进行评估,GPT-4 作为评审。
实验结果
研究问题
- RQ1在单轮和多轮咨询设置下,DISC-MedLLM 能否实现准确且可靠的医疗回答?
- RQ2以医疗知识图谱和真实对话为基础能否降低幻觉并提升与真实临床话语的一致性?
- RQ3与人类偏好的一致性如何影响医疗对话任务的表现?
- RQ4在结构化基准测试中,DISC-MedLLM 相对于现有的中文医疗大模型和通用大模型的优劣在哪里?
主要发现
| 模型 | MLEC-QA Clinic | MLEC-QA CWM | MLEC-QA PublicHealth | MLEC-QA Stomatology | MLEC-QA TCM | NEEP 306 | 平均值 |
|---|---|---|---|---|---|---|---|
| few-shot GPT-3.5 | 58.63 | 45.90 | 53.51 | 51.52 | 43.47 | 44.81 | 49.64 |
| Baichuan-13b-Chat | 31.25 | 37.69 | 28.65 | 27.27 | 29.77 | 24.81 | 29.91 |
| HuatuoGPT(13B) | 31.85 | 25.00 | 32.43 | 32.95 | 26.54 | 24.44 | 28.87 |
| DISC-MedLLM | 44.64 | 41.42 | 41.62 | 38.26 | 39.48 | 33.33 | 39.79 |
| zero-shot GPT-3.5 | 47.32 | 33.96 | 48.11 | 39.77 | 38.83 | 33.33 | 40.22 |
| Baichuan-13b-Chat | 44.05 | 43.28 | 39.92 | 31.06 | 41.42 | 32.22 | 38.66 |
| HuatuoGPT(13B) | 27.38 | 21.64 | 25.95 | 25.76 | 24.92 | 20.37 | 24.34 |
| DISC-MedLLM | 44.64 | 37.31 | 35.68 | 34.85 | 41.75 | 31.11 | 37.56 |
- 在相同参数规模下,DISC-MedLLM 在医学多项选择题上平均领先 HuatuoGPT(13B)超过 10%。
- 在模拟多轮咨询中,DISC-MedLLM 总体表现优于 GPT-3.5、HuatuoGPT 和 BianQue,特别是在科室和患者意图方面。
- 在多轮设置中,DISC-MedLLM 获得评估模型中最佳的主动性分数。
- 在某些基准下,该模型的结果与 GPT-3.5 竞争,接近 GPT-4 的性能,特别是在主动性和多轮处理方面。
- 基于知识支撑和偏好对齐数据的两阶段 SFT 方法在知识可靠性与对话行为方面均带来改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。