Skip to main content
QUICK REVIEW

[论文解读] End-to-End Optimization of Task-Oriented Dialogue Model with Deep Reinforcement Learning

Bing Liu, Gökhan Tür|arXiv (Cornell University)|Nov 29, 2017
Speech and dialogue systems参考文献 19被引用 51
一句话总结

本文提出一个神经端到端的面向任务的对话系统,先进行监督学习训练,再通过深度强化学习进行优化,以提高任务成功率并缩短对话长度,超越逐个组件和仅策略的基线。

ABSTRACT

In this paper, we present a neural network based task-oriented dialogue system that can be optimized end-to-end with deep reinforcement learning (RL). The system is able to track dialogue state, interface with knowledge bases, and incorporate query results into agent's responses to successfully complete task-oriented dialogues. Dialogue policy learning is conducted with a hybrid supervised and deep RL methods. We first train the dialogue agent in a supervised manner by learning directly from task-oriented dialogue corpora, and further optimize it with deep RL during its interaction with users. In the experiments on two different dialogue task domains, our model demonstrates robust performance in tracking dialogue state and producing reasonable system responses. We show that deep RL based optimization leads to significant improvement on task success rate and reduction in dialogue length comparing to supervised training model. We further show benefits of training task-oriented dialogue model end-to-end comparing to component-wise optimization with experiment results on dialogue simulations and human evaluations.

研究动机与目标

  • 通过将端到端优化引入以减少任务导向对话系统中的错误传播,激励研究動機。
  • 开发一个神经体系结构,能够端对端地跟踪对话状态、查询知识库并生成响应。
  • 证明深度强化学习微调在任务成功率和对话效率方面优于仅使用监督训练。
  • 通过仿真与人工评估展示端到端优化相对于组件化优化的好处。

提出的方法

  • 在对话轮次上使用对话级别的 LSTM 维持连续的对话状态。
  • 用双向 LSTM 读者对用户话语进行编码以产生 U_k。
  • 通过带有 softmax 输出的槽位专用 MLP 预测所跟踪目标的槽分布。
  • 从高概率槽值形成对知识库的查询,并将知识库结果纳入系统动作。
  • 初始阶段采用监督学习以最小化槽预测和动作选择的交叉熵损失(损失线性插值)。
  • 使用 REINFORCE 进行微调;采用 softmax 策略以鼓励探索;奖励给任务成功、失败时为零、每轮的小额惩罚以偏好较短的对话。

实验结果

研究问题

  • RQ1端到端训练是否能在鲁棒性和任务成功率方面优于传统的流水线式或纯监督的面向任务的对话系统?
  • RQ2在在线交互过程中,端到端优化是否相较仅策略的强化学习带来额外的收益?
  • RQ3所提出的模型在状态跟踪、知识库接口和端到端响应生成方面在不同领域(如餐厅预订与电影预订)中的表现如何?

主要发现

模型区域菜品价格联合
RNN [24]92868669
NBT [6]90849472
我们的端到端模型90849272
  • 相比于仅使用监督训练,端到端强化学习提高了任务成功率并缩短了对话长度。
  • 在在线学习过程中,端到端更新的强化学习训练表现高于仅策略的强化学习。
  • 端到端模型在 DSTC2 上实现了接近状态-of-the-art 的信念跟踪,并在电影预订数据集上实现了强烈的槽位与联合槽追踪。
  • 人工评估者在系统轮次质量方面给端到端强化学习模型的评分高于 SL 和仅策略强化学习基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。