QUICK REVIEW

[论文解读] Learning from Real Users: Rating Dialogue Success with Neural Networks for Reinforcement Learning in Spoken Dialogue Systems

Pei-Hao Su, David Vandyke|arXiv (Cornell University)|Aug 13, 2015

Speech and dialogue systems参考文献 21被引用 52

一句话总结

本文提出使用循环神经网络（RNNs）在不事先了解用户目标的情况下，通过学习真实用户交互中的回合级特征，自动预测对话系统中的对话成功情况。RNN模型的性能与使用真实任务成功标签的监督基线相当，使得即使在任务目标未知的情况下，也能通过真实用户实现有效的在线策略训练，并且优于依赖噪声用户反馈的方法。

ABSTRACT

To train a statistical spoken dialogue system (SDS) it is essential that an accurate method for measuring task success is available. To date training has relied on presenting a task to either simulated or paid users and inferring the dialogue's success by observing whether this presented task was achieved or not. Our aim however is to be able to learn from real users acting under their own volition, in which case it is non-trivial to rate the success as any prior knowledge of the task is simply unavailable. User feedback may be utilised but has been found to be inconsistent. Hence, here we present two neural network models that evaluate a sequence of turn-level features to rate the success of a dialogue. Importantly these models make no use of any prior knowledge of the user's task. The models are trained on dialogues generated by a simulated user and the best model is then used to train a policy on-line which is shown to perform at least as well as a baseline system using prior knowledge of the user's task. We note that the models should also be of interest for evaluating SDS and for monitoring a dialogue in rule-based SDS.

研究动机与目标

在不事先了解用户目标的情况下，实现使用真实用户自发参与的对话系统（SDS）训练。
解决在真实场景中用户目标未知且反馈不一致时，难以定义客观任务成功的问题。
开发一种基于神经网络的奖励预测模型，仅使用回合级特征评估对话成功，而无需依赖真实任务完成情况。
证明此类模型能够在真实用户参与下实现有效的在线策略训练，性能与使用已知任务目标的基线相当或更优。
提供一种可扩展、自动化的奖励估计方法，适用于统计和基于规则的对话系统中的实时监控与策略学习。

提出的方法

训练两种神经网络架构——循环神经网络（RNNs）和卷积神经网络（CNNs）——基于从对话中提取的回合级特征序列，对对话成功进行分类。
模型在模拟用户对话上进行训练，其中任务成功情况已知，使用诸如槽位填充准确率、对话长度和系统响应质量等特征。
RNN模型按顺序处理对话历史，捕捉回合间交互的时间依赖性，而CNN模型则对固定长度的对话表示应用卷积滤波器。
性能最佳的模型（二分类RNN）被部署用于在真实用户参与的在线策略训练中生成奖励信号，通过Amazon Mechanical Turk实现。
策略学习采用强化学习方法，由RNN模型提供奖励信号，替代真实任务成功标签。
性能通过自动化指标（准确率、RMSE）和人类评估（对话质量6分制李克特量表及二元成功评分）进行评估。

实验结果

研究问题

RQ1在无用户任务先验知识的情况下，神经网络能否准确预测真实用户交互中的对话成功？
RQ2在仅使用回合级特征且无任务特定标签的情况下，RNN与CNN在对话成功分类上的性能如何比较？
RQ3基于神经网络的奖励预测器能否在真实用户参与的对话系统中实现有效的在线策略学习，性能与使用真实任务成功标签的基线相当或更优？
RQ4在真实对话数据中训练数据有限且错误率变化的情况下，神经网络模型的鲁棒性如何？
RQ5基于RNN的奖励预测器能否在训练有效对话策略方面优于依赖噪声用户反馈或主观评分的方法？

主要发现

二分类RNN模型在对话成功分类中取得最高准确率，优于CNN模型，即使仅使用1,000个训练对话也表现出强鲁棒性。
RNN模型在保留测试集上的测试准确率达到89.5%，奖励估计的均方根误差（RMSE）为0.42，表明其回归性能优异。
使用RNN奖励预测器进行的在线策略训练，对话质量评分为5.0分制中的3.94分，略高于基线系统的3.77分，尽管基线系统可访问真实任务成功标签。
RNN系统使用了所有对话进行训练，而基线系统因客观与主观成功评分不一致而丢弃约15%的对话，表明RNN方法在数据利用上更高效且更具成本效益。
模型在具有不同错误率的测试集上泛化良好，表明其适用于存在噪声或输入质量不稳定的现实系统部署。
本研究证明，神经网络可有效替代强化学习训练中的真实任务成功标签，使无需事先了解用户目标的对话系统在真实世界中得以部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。