Skip to main content
QUICK REVIEW

[论文解读] End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning

J. D. Williams, Geoffrey Zweig|arXiv (Cornell University)|Jun 3, 2016
Speech and dialogue systems参考文献 25被引用 122
一句话总结

一个端到端的对话控制器,使用 LSTM 将原始对话历史映射到动作分布,使用监督学习训练,并通过策略梯度强化,并结合领域特定的软件实现规则和 API。

ABSTRACT

This paper presents a model for end-to-end learning of task-oriented dialog systems. The main component of the model is a recurrent neural network (an LSTM), which maps from raw dialog history directly to a distribution over system actions. The LSTM automatically infers a representation of dialog history, which relieves the system developer of much of the manual feature engineering of dialog state. In addition, the developer can provide software that expresses business rules and provides access to programmatic APIs, enabling the LSTM to take actions in the real world on behalf of the user. The LSTM can be optimized using supervised learning (SL), where a domain expert provides example dialogs which the LSTM should imitate; or using reinforcement learning (RL), where the system improves by interacting directly with end users. Experiments show that SL and RL are complementary: SL alone can derive a reasonable initial policy from a small number of training dialogs; and starting RL optimization with a policy trained with SL substantially accelerates the learning rate of RL.

研究动机与目标

  • 通过让 LSTM 推断历史表示,减少手工设计的对话状态。
  • 将循环神经网络与对现实场景中的业务规则和 API 的领域特定软件集成。
  • 展示端到端的对话控制训练,结合监督学习和强化学习。
  • 证明监督学习提供强初始策略并加速后续的 RL 优化。
  • 使在线重新训练成为可能,以在实时对话中调整策略。

提出的方法

  • 三组件模型:一个 LSTM、带动作门控和 API 访问的领域特定软件,以及一个语言理解模块。
  • LSTM 从实体识别得到一个特征向量以及开发者提供的特征,输出对动作模板的分布。
  • 开发者代码提供的动作掩码对可用动作进行门控,LSTM 用此对概率重新归一化。
  • 动作通过 RL 时通过采样来选择,其他情况下选择最大概率的动作,历史记忆反馈给 LSTM。
  • RL 使用带基线的策略梯度更新以降低方差,当掩码截断动作时,向概率中加入一个小常数。
  • 有监督学习训练模型模仿提供的示例对话;RL 微调策略,同时确保它仍然重构训练对话。

实验结果

研究问题

  • RQ1端到端的 LSTM 在不依赖手工状态表示的情况下,如何有效地通过将原始对话历史映射到动作来学习对话控制?
  • RQ2将监督学习与强化学习结合是否比单独使用任一方法在数据效率和策略性能上表现更好?
  • RQ3动作掩码和领域特定 API 对所学策略及其执行现实世界动作的影响如何?
  • RQ4模型是否能够在实时在线训练和更新,同时不牺牲对监督的忠实度?
  • RQ5循环结构在维持对话历史方面与非循环架构相比有何差异?
  • RQ6key_findingsทuced: null,
  • RQ7table_headers: []

主要发现

  • LSTM 可以学习将对话历史映射到动作模板,而手工设计的状态表示几乎为零。
  • 经历一个对话后,70% 的对话轮次被正确预测;在 20 个对话后,每轮的准确率超过 90%,几乎有 50% 的对话完全正确预测。
  • 一个非循环的 DNN 在用 20 次对话训练时无法重构训练集,而一个 RNN 能够,显示了历史记忆的重要性。
  • 在强化学习之前加入少量监督学习能显著加速 RL 学习并降低策略方差。
  • 使用 SL 训练的策略在 RL 的进一步改进下得到提升,但单独的 RL 可能难以发现完整策略;先前的 SL 预训练提高了可靠性和性能。
  • 在标准 CPU 上重新训练 LSTM 的时间不到一秒,便于在线纠错和主动学习;ROC 分析表明低分动作更可能不正确,从而引导高效标注。
  • 使用预训练的主动 RL 在不同运行之间降低方差,并在用策略梯度优化时加速收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。