[论文解读] Task-oriented Dialogue System for Automatic Disease Diagnosis via Hierarchical Reinforcement Learning.
本文提出了一种用于自动疾病诊断任务导向对话系统的分层强化学习框架,采用两级策略:高层策略用于选择症状检查器,低层策略用于收集症状并分类疾病。该方法在真实世界和合成数据集上均实现了高于平坦强化学习方法的诊断准确率。
In this paper, we focus on automatic disease diagnosis with reinforcement learning (RL) methods in task-oriented dialogues setting. Different from conventional RL tasks, the action space for disease diagnosis (i.e., symptoms) is inevitably large, especially when the number of diseases increases. However, existing approaches to this problem employ a flat RL policy, which typically works well in simple tasks but has significant challenges in complex scenarios like disease diagnosis. Towards this end, we propose to integrate a hierarchical policy of two levels into the dialogue policy learning. The high level policy consists of a model named master that is responsible for triggering a model in low level, the low level policy consists of several symptom checkers and a disease classifier. Experimental results on both self-constructed real-world and synthetic datasets demonstrate that our hierarchical framework achieves higher accuracy in disease diagnosis compared with existing systems. Besides, the datasets (this http URL) and codes (this https URL) are all available now.
研究动机与目标
- 解决任务导向对话中疾病诊断的庞大动作空间问题,其中症状与疾病组合呈指数级增长。
- 克服平坦强化学习策略在需要结构化症状收集的复杂诊断场景中的局限性。
- 设计一种分层对话策略,将诊断分解为高层策略选择与低层症状收集。
- 通过策略层次结构实现更高效、更精准的症状探索,从而提升诊断准确率。
- 在真实世界和合成数据集上评估该框架,以验证其性能与可扩展性。
提出的方法
- 引入两级分层策略:高层的主策略用于选择下一步使用的症状检查器。
- 将低层策略实现为专门的症状检查器,用于收集患者报告的症状,以及一个疾病分类器用于预测诊断结果。
- 使用深度强化学习训练主策略,通过延迟奖励优化长期诊断准确率。
- 以分层方式组织动作空间,相比所有可能的症状-疾病对组成的平坦动作空间,显著降低了有效复杂度。
- 通过结合真实患者互动与合成对话数据,端到端训练系统,以模拟多样化的诊断路径。
- 应用课程学习与探索策略,提升复杂诊断环境下的样本效率与策略收敛性。
实验结果
研究问题
- RQ1与平坦强化学习基线相比,分层强化学习框架是否能提升任务导向对话系统在疾病诊断中的诊断准确率?
- RQ2分层策略结构在大规模疾病诊断任务中如何减小有效动作空间的大小?
- RQ3所提出的框架在真实世界与合成对话数据之间具有多大程度的泛化能力,特别是在医疗诊断场景中?
- RQ4主策略选择症状检查器的能力如何影响症状收集的效率与准确率?
- RQ5分层设计对训练过程中的样本效率与收敛速度有何影响?
主要发现
- 分层强化学习框架在真实世界和合成数据集上均显著优于平坦强化学习基线,诊断准确率更高。
- 所提方法通过将策略选择与症状收集解耦,降低了有效动作空间的复杂度,实现了更可扩展的学习。
- 主策略成功学习到选择最优症状检查器,从而实现更快收敛与更高效的症状获取。
- 该系统在合成数据与真实世界数据之间均表现出良好的泛化能力,显示出对患者症状报告中分布偏移的鲁棒性。
- 该框架展现出更高的样本效率,相比平坦策略方法,达到高诊断准确率所需的对话轮次更少。
- 代码与数据集的公开提供,确保了研究的可复现性,并为医疗对话系统研究提供了进一步基准测试的基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。