QUICK REVIEW

[论文解读] On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems

Pei-Hao Su, Milica Gašić|arXiv (Cornell University)|May 24, 2016

Speech and dialogue systems参考文献 35被引用 81

一句话总结

本文提出了一种用于语音对话系统的在线主动奖励学习框架，通过在RNN生成的对话嵌入上使用高斯过程分类，联合训练对话策略与奖励模型。通过主动选择信息量丰富的用户反馈并建模不确定性，该方法降低了标注成本，并提高了对噪声反馈的鲁棒性，在无需预训练模拟器或大规模标注数据集的情况下，实现了真实场景部署中的优越策略优化效果。

ABSTRACT

The ability to compute an accurate reward function is essential for optimising a dialogue policy via reinforcement learning. In real-world applications, using explicit user feedback as the reward signal is often unreliable and costly to collect. This problem can be mitigated if the user's intent is known in advance or data is available to pre-train a task success predictor off-line. In practice neither of these apply for most real world applications. Here we propose an on-line learning framework whereby the dialogue policy is jointly trained alongside the reward model via active learning with a Gaussian process model. This Gaussian process operates on a continuous space dialogue representation generated in an unsupervised fashion using a recurrent neural network encoder-decoder. The experimental results demonstrate that the proposed framework is able to significantly reduce data annotation costs and mitigate noisy user feedback in dialogue policy learning.

研究动机与目标

解决通过强化学习训练对话策略时用户反馈不可靠且成本高昂的挑战。
消除真实世界语音对话系统中对预训练用户模拟器或大规模标注数据集的依赖。
通过主动学习仅选择最具信息量的反馈请求，最小化人工标注工作量。
通过贝叶斯高斯过程分类器对用户反馈中的不确定性和噪声进行建模，提升策略学习的稳定性。
仅依赖真实用户交互，实现从零开始的端到端在线策略优化。

提出的方法

使用循环神经网络（RNN）自编码器从可变长度的对话历史中生成固定长度的无监督对话嵌入。
在这些嵌入上训练高斯过程分类（GPC）模型以预测对话成功，并利用不确定性估计指导主动学习。
主动学习仅选择最不确定或最具信息量的对话进行用户反馈，从而最小化所需标注数量。
利用来自真实用户的反馈实时在线更新奖励模型，实现对话策略与奖励函数的联合优化。
在GPC框架中引入噪声模型，以处理用户反馈中的不准确性，提升鲁棒性。
整个系统从真实用户交互中端到端训练，无需预定义的任务成功信号或用户模拟器。

实验结果

研究问题

RQ1结合不确定性感知建模的在线主动奖励学习能否显著减少对话策略训练中所需的用户反馈标注数量？
RQ2与依赖模拟反馈或全量标注的方法相比，采用在线主动奖励学习训练的对话策略性能如何？
RQ3无监督的基于RNN的对话嵌入在奖励建模中在多大程度上可替代人工设计特征或基于模拟器的表示？
RQ4该方法在真实场景部署中对噪声或不一致用户反馈的鲁棒性如何？
RQ5通过在线学习联合优化策略与奖励模型，能否在无需预训练或用户模拟器的情况下实现稳定且有效的策略收敛？

主要发现

所提方法通过主动学习仅在最具信息量时请求反馈，显著降低了数据标注成本。
即使在存在噪声用户反馈的情况下，该系统在剑桥餐厅领域中的策略优化性能仍优于当前最先进方法。
高斯过程奖励模型通过有效建模不确定性和过滤噪声，展现出对不一致用户评分的强鲁棒性。
无监督的基于RNN的对话嵌入提供了紧凑且有效的表示，使无需任何标注数据即可实现高质量的奖励预测。
策略与奖励模型的联合在线训练带来了稳定的学习除错，避免了仅依赖主观用户反馈时常见的不稳定性。
该框架实现了真实场景下无需用户模拟器或大规模标注数据集的端到端在线策略学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。