QUICK REVIEW

[论文解读] Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

Bing Liu, Gökhan Tür|arXiv (Cornell University)|Apr 18, 2018

Speech and dialogue systems参考文献 27被引用 20

一句话总结

本文提出了一种混合模仿学习与强化学习的框架，用于端到端可训练的任务导向对话系统，使智能体能够在交互失败期间从人类教学中学习，并在后续阶段从用户反馈中学习。该方法通过解决离线预训练与在线交互之间分布偏移的问题，提升了任务成功率与对话状态跟踪准确率，端到端微调使性能超越仅监督学习或仅策略强化学习的方法。

ABSTRACT

In this work, we present a hybrid learning method for training task-oriented dialogue systems through online user interactions. Popular methods for learning task-oriented dialogues include applying reinforcement learning with user feedback on supervised pre-training models. Efficiency of such learning method may suffer from the mismatch of dialogue state distribution between offline training and online interactive learning stages. To address this challenge, we propose a hybrid imitation and reinforcement learning method, with which a dialogue agent can effectively learn from its interaction with users by learning from human teaching and feedback. We design a neural network based task-oriented dialogue agent that can be optimized end-to-end with the proposed learning method. Experimental results show that our end-to-end dialogue agent can learn effectively from the mistake it makes via imitation learning from user teaching. Applying reinforcement learning with user feedback after the imitation learning stage further improves the agent's capability in successfully completing a task.

研究动机与目标

解决任务导向对话系统中离线监督预训练与在线交互强化学习之间的分布偏移问题。
通过结合高效强化学习与二元反馈，减少对昂贵用户教学的依赖。
通过联合训练实现对话策略、状态跟踪与自然语言理解的端到端优化。
通过人机协同教学与反馈的交互学习，提升任务成功率与对话状态跟踪准确率。
通过人类评估者在真实用户交互场景中评估混合学习的有效性。

提出的方法

对话智能体通过神经网络架构进行端到端训练，联合优化自然语言理解、对话状态跟踪与策略学习。
该方法首先在对话语料上应用监督学习对智能体进行预训练。
当智能体在交互中出错时，用户会提供纠正性示范（教学），这些示范被加入训练数据，通过微调进行模仿学习。
模仿学习完成后，智能体通过仅使用对话结束时的二元反馈（成功/失败）进行强化学习。
模型采用端到端反向传播更新所有组件，包括输入嵌入层，确保整个流程的联合优化。
该方法通过聚焦于通过人类示范进行关键错误恢复，随后采用反馈最少的可扩展强化学习，减少了所需用户教学的次数。

实验结果

研究问题

RQ1对话智能体是否能有效利用在线交互中的人类教学，在预训练未覆盖的错误中实现恢复？
RQ2将模仿学习与人类教学结合，并在后续进行强化学习，是否能相比仅监督学习或仅强化学习微调，提升任务成功率？
RQ3在用户输入变化引起分布偏移的情况下，端到端微调在多大程度上提升了对话状态跟踪准确率？
RQ4与仅策略强化学习微调相比，该混合学习方法在学习效率与最终性能方面表现如何？
RQ5当智能体同时从教学与反馈中学习时，人类评估者是否能感知到对话质量的显著提升？

主要发现

SL + IL + RL 模型在人类评估中的任务成功得分为 4.603（量表 1–5），显著优于仅 SL 模型（3.987）与 SL + IL 模型（4.378）。
经过 500 次模仿学习会话后，对话状态跟踪准确率从分布偏移下的 50.51% 提升至 67.47%，表明对新用户输入分布具有有效适应能力。
端到端强化学习微调的性能优于仅策略训练，表明所有模型组件联合优化具有优势。
SL + IL + RL 模型在需要更长对话的复杂任务中表现出更高的成功率，表明其策略学习能力优于仅 SL + RL 的方法。
人类评估者将 SL + IL + RL 模型评为最具帮助性与自然性，平均得分为 4.603，表明用户体验得到改善。
该方法通过聚焦关键错误恢复，减少了对频繁用户教学的需求，同时仍能实现高效的最小反馈强化学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。