[论文解读] MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System.
本文提出了MedDG,一个大规模、高质量的医疗对话数据集,包含17,000多个关于12种常见胃肠道疾病的对话,附带细粒度的实体标注(疾病、症状、检查、药物、属性)。该研究提出了两个任务——下一个实体预测和响应生成——并表明预训练模型表现不佳,而基于检索的方法优于生成模型,凸显了对更具备实体感知能力的医疗对话系统的需求。
Developing conversational agents to interact with patients and provide primary clinical advice has attracted increasing attention due to its huge application potential, especially in the time of COVID-19 Pandemic. However, the training of end-to-end neural-based medical dialogue system is restricted by an insufficient quantity of medical dialogue corpus. In this work, we make the first attempt to build and release a large-scale high-quality Medical Dialogue dataset related to 12 types of common Gastrointestinal diseases named MedDG, with more than 17K conversations collected from the online health consultation community. Five different categories of entities, including diseases, symptoms, attributes, tests, and medicines, are annotated in each conversation of MedDG as additional labels. To push forward the future research on building expert-sensitive medical dialogue system, we proposes two kinds of medical dialogue tasks based on MedDG dataset. One is the next entity prediction and the other is the doctor response generation. To acquire a clear comprehension on these two medical dialogue tasks, we implement several state-of-the-art benchmarks, as well as design two dialogue models with a further consideration on the predicted entities. Experimental results show that the pre-train language models and other baselines struggle on both tasks with poor performance in our dataset, and the response quality can be enhanced with the help of auxiliary entity information. From human evaluation, the simple retrieval model outperforms several state-of-the-art generative models, indicating that there still remains a large room for improvement on generating medically meaningful responses.
研究动机与目标
- 解决当前缺乏大规模、高质量医疗对话数据集以训练端到端神经对话系统的问题。
- 从在线健康社区收集并发布一个聚焦于胃肠道疾病的多样化、真实世界医疗咨询数据集。
- 对每个对话进行五类实体类型(疾病、症状、属性、检查、药物)的标注,以支持结构化的医疗对话建模。
- 提出两个新颖的医疗对话任务:下一个实体预测和医生响应生成,以推动医疗对话系统的研究进展。
- 评估最先进模型并揭示当前方法的局限性,特别是在生成具有医学意义的响应方面。
提出的方法
- 从在线健康社区收集超过17,000个真实医疗咨询对话,聚焦于12种常见胃肠道疾病。
- 对每个对话中的每个话语进行五类实体类型(疾病、症状、属性、检查、药物)的详细标注。
- 设计两个基准任务:(1) 下一个实体预测,即模型预测对话轮次中的下一个医学实体;(2) 医生响应生成,即模型生成合适的医学响应。
- 为两个任务实现多种最先进基线模型,包括预训练语言模型,以建立性能基准。
- 设计两种对话模型,将预测的实体作为辅助信号引入,以提升响应生成质量。
- 通过人工评估比较基于检索的模型与生成模型在医学相关性和响应质量方面的表现。
实验结果
研究问题
- RQ1现有预训练语言模型在大规模、真实世界医疗对话数据集上生成具有医学相关性的响应效果如何?
- RQ2辅助实体信息在多大程度上能提升对话系统中生成医学响应的质量?
- RQ3简单的基于检索的模型是否能在医疗对话生成中超越复杂的神经生成模型?
- RQ4下一个实体预测的性能与后续响应生成质量之间是否存在相关性?
- RQ5当前神经对话模型在生成医学上准确且上下文恰当的响应方面存在哪些关键局限?
主要发现
- 预训练语言模型及其他最先进基线模型在MedDG数据集的下一个实体预测和响应生成任务上表现均不佳。
- 引入预测的实体信息显著提升了生成医学响应的质量,表明结构化医学知识在对话建模中的价值。
- 在人工评估中,简单的基于检索的模型优于多种先进的神经生成模型,表明生成模型在医学相关性方面仍存在不足。
- MedDG数据集揭示了即使在大规模预训练背景下,生成具有医学意义且上下文准确的响应仍面临重大挑战。
- 该数据集和任务凸显了在医疗应用中迫切需要更具备专家敏感性、知识增强的对话系统。
- MedDG中的实体级标注为未来医疗对话系统研究提供了坚实基础,尤其在整合临床知识方面具有重要意义。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。