[论文解读] BianQue: Balancing the Questioning and Suggestion Ability of Health LLMs with Multi-turn Health Conversations Polished by ChatGPT
本文提出 BianQue,一种在大规模多轮健康对话语料上微调的健康领域大语言模型,旨在平衡主动提问(CoQ)与健康建议,在多个基准上优于基线。
Large language models (LLMs) have performed well in providing general and extensive health suggestions in single-turn conversations, exemplified by systems such as ChatGPT, ChatGLM, ChatDoctor, DoctorGLM, and etc. However, the limited information provided by users during single turn results in inadequate personalization and targeting of the generated suggestions, which requires users to independently select the useful part. It is mainly caused by the missing ability to engage in multi-turn questioning. In real-world medical consultations, doctors usually employ a series of iterative inquiries to comprehend the patient's condition thoroughly, enabling them to provide effective and personalized suggestions subsequently, which can be defined as chain of questioning (CoQ) for LLMs. To improve the CoQ of LLMs, we propose BianQue, a ChatGLM-based LLM finetuned with the self-constructed health conversation dataset BianQueCorpus that is consist of multiple turns of questioning and health suggestions polished by ChatGPT. Experimental results demonstrate that the proposed BianQue can simultaneously balance the capabilities of both questioning and health suggestions, which will help promote the research and application of LLMs in the field of proactive health.
研究动机与目标
- 动机:在健康领域的多轮对话中提出主动提问需求,以提升个性化。
- 提出一个大规模的多轮健康对话语料库(BianQueCorpus),实现提问与建议的平衡。
- 开发 BianQue,基于 ChatGLM 的大模型,在 BianQueCorpus 上微调,以提升 CoQ 与建议质量。
- 在中文健康对话基准上将 BianQue 与多种基线比较,并引入 Proactive Questioning Ability (PQA) 指标。
提出的方法
- 从真实世界的多轮健康对话构建 BianQueCorpus,进行自动清洗和基于 ChatGPT 的医生建议润色。
- 在 BianQueCorpus 上对 ChatGLM-6B 进行微调,采用强调患者与医生对话轮次的特定输入/输出对话格式。
- 在训练中使用 warmup-decay 学习率调度,并设定输入/输出长度约束。
- 使用标准的 BLEU 与 ROUGE 指标,以及新颖的 Proactive Questioning Ability (PQA) 指标进行评估。
- 提供可复现性细节,包括模型规模(6.2B 参数)和训练设置。
实验结果
研究问题
- RQ1健康领域的 LLM 能否在保持高质量健康建议的同时进行有意义的多轮提问(CoQ)?
- RQ2在共同创建的多轮语料上微调是否比现有模型更好地在提问与建议能力之间取得平衡?
- RQ3在中文健康对话基准上,BianQue 相对于 ChatGPT 和其他健康 LLM 的表现如何?
- RQ4Proactive Questioning Ability (PQA) 指标在衡量 CoQ 性能方面的作用是什么?
主要发现
| 数据集 | 模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | R-1 | R-2 | R-L | PQA |
|---|---|---|---|---|---|---|---|---|---|
| MedDialog-CN | ChatGLM-6B | 7.28 | 3.72 | 2.10 | 1.23 | 10.86 | 0.92 | 7.43 | 0.20 |
| MedDialog-CN | DoctorGLM | 10.39 | 5.06 | 2.94 | 1.80 | 13.27 | 1.04 | 11.17 | 0.01 |
| MedDialog-CN | ChatGPT | 7.61 | 3.90 | 2.21 | 1.30 | 11.11 | 0.96 | 7.82 | 0.28 |
| MedDialog-CN | BianQue | 11.12 | 6.50 | 4.42 | 3.10 | 15.55 | 2.15 | 12.96 | 0.53 |
| IMCS-V2 | ChatGLM-6B | 6.83 | 3.61 | 2.12 | 1.30 | 10.24 | 1.03 | 7.26 | 0.36 |
| IMCS-V2 | DoctorGLM | 8.38 | 4.22 | 2.52 | 1.55 | 11.87 | 0.95 | 9.22 | 0.06 |
| IMCS-V2 | ChatGPT | 8.46 | 4.54 | 2.71 | 1.70 | 11.48 | 1.29 | 8.97 | 0.38 |
| IMCS-V2 | BianQue | 14.50 | 10.16 | 7.85 | 6.23 | 21.73 | 6.24 | 19.09 | 0.70 |
| CHIP-MDCFNPC | ChatGLM-6B | 6.22 | 3.11 | 1.81 | 1.10 | 9.62 | 0.85 | 0.67 | 0.35 |
| CHIP-MDCFNPC | DoctorGLM | 8.59 | 4.33 | 2.68 | 1.71 | 12.05 | 1.11 | 9.68 | 0.05 |
| CHIP-MDCFNPC | ChatGPT | 7.52 | 3.74 | 2.20 | 1.36 | 10.51 | 0.97 | 8.03 | 0.38 |
| CHIP-MDCFNPC | BianQue | 13.41 | 8.49 | 6.05 | 4.42 | 19.00 | 3.99 | 16.56 | 0.57 |
| MedDG | ChatGLM-6B | 4.76 | 2.31 | 1.34 | 0.81 | 7.35 | 0.56 | 5.06 | 0.47 |
| MedDG | DoctorGLM | 6.87 | 3.47 | 2.15 | 1.35 | 9.62 | 0.88 | 7.61 | 0.09 |
| MedDG | ChatGPT | 5.11 | 2.41 | 1.38 | 0.83 | 7.58 | 0.50 | 5.46 | 0.63 |
| MedDG | BianQue | 14.86 | 10.43 | 8.09 | 6.37 | 21.56 | 6.46 | 19.56 | 0.81 |
- BianQue 在 MedDialog-CN、IMCS-V2、CHIP-MDCFNPC 与 MedDG 数据集上均取得高于基线的 BLEU/Rouge 分数。
- BianQue 在评估数据集上表现出更高的 Proactive Questioning Ability (PQA)。
- BianQue 在多项指标上超越 ChatGLM-6B、DoctorGLM 和 ChatGPT,在 BLEU-1/2/3/4 以及 ROUGE-L 上有显著提升。
- 该数据集和模型实现了提问与建议的平衡,表明在不牺牲建议质量的情况下提升了 CoQ 能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。