[论文解读] Continuously Learning Neural Dialogue Management
一个两阶段框架先用监督学习在语料库上训练神经对话策略,然后用强化学习系统性地改进,在嘈杂和真实用户场景中实现更好性能,同时仅使用一个模型。
We describe a two-step approach for dialogue management in task-oriented spoken dialogue systems. A unified neural network framework is proposed to enable the system to first learn by supervision from a set of dialogue data and then continuously improve its behaviour via reinforcement learning, all using gradient-based algorithms on one single model. The experiments demonstrate the supervised model's effectiveness in the corpus-based evaluation, with user simulation, and with paid human subjects. The use of reinforcement learning further improves the model's performance in both interactive settings, especially under higher-noise conditions.
研究动机与目标
- 促进鲁棒的面向任务的对话管理,使其在监督数据之外也能适应。
- 提出一个可通过监督学习和强化学习共同训练的统一神经策略。
- 展示在线强化学习在仿真和真实用户试验中的性能提升,尤其在有噪声的情况下。
- 在真实的餐馆信息领域和现实的评估设置中证明其有效性。
提出的方法
- 具有一个隐藏层(32 单位)的策略网络,输出 DiaAct、Query 和 Offer。
- Phase I:使用联合交叉熵损失训练策略以模仿带标签的对话行动。
- Phase II:使用策略梯度强化学习对策略进行微调,以最大化期望对话奖励。
- 使用自然梯度(eNAC)或截断变体以实现高效策略优化。
- 结合经验回放和奖励归一化以稳定训练。
- 在Cambridge餐馆域的基于语料的、仿真和真实用户交互上进行评估。
实验结果
研究问题
- RQ1是否可以通过强化学习有效改进用监督数据训练的单一神经策略来进行对话管理?
- RQ2在线RL是否有助于将监督策略调整适应不匹配的部署环境,包括更高的噪声水平?
- RQ3在对话管理中,完整动作集神经策略与受限动作RL方法相比如何?
- RQ4在仿真和真实用户实验中,RL对用户评分的对话质量和成功率有何影响?
主要发现
- 在720条对话的监督训练获得强劲的 DiaAct(97.73)和 Offer(92.51)F1分数,Query 为 87.39。
- RL微调在仿真中不同语义错误率下将成功率提高了最多1–8%。
- 人类用户评估显示SL+RL策略在质量(6点李克特量表上为4.04对3.97)和成功率(98.2%对94.5%)方面有提升。
- 该方法使用一个端到端的单一模型,结合SL和RL进行训练,使其在不匹配的环境中实现持续改进。
- RL提升了在更高噪声条件和在线用户互动中的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。