[论文解读] Reward Shaping with Recurrent Neural Networks for Speeding up On-Line Policy Learning in Spoken Dialogue Systems
本文提出使用门控循环神经网络(GRUs)从模拟用户交互中学习对话级别的奖励塑形信号,从而在无需事先了解用户目标的情况下,加快对话系统中的在线策略学习。基于RNN的塑形信号在模拟环境和真实用户环境中均显著加速了策略收敛,优于人工设计的奖励塑形方法和基线方法。
Statistical spoken dialogue systems have the attractive property of being able to be optimised from data via interactions with real users. However in the reinforcement learning paradigm the dialogue manager (agent) often requires significant time to explore the state-action space to learn to behave in a desirable manner. This is a critical issue when the system is trained on-line with real users where learning costs are expensive. Reward shaping is one promising technique for addressing these concerns. Here we examine three recurrent neural network (RNN) approaches for providing reward shaping information in addition to the primary (task-orientated) environmental feedback. These RNNs are trained on returns from dialogues generated by a simulated user and attempt to diffuse the overall evaluation of the dialogue back down to the turn level to guide the agent towards good behaviour faster. In both simulated and real user scenarios these RNNs are shown to increase policy learning speed. Importantly, they do not require prior knowledge of the user's goal.
研究动机与目标
- 解决由于环境奖励稀疏而导致的对话系统中在线策略学习收敛缓慢的问题。
- 开发一种生成信息丰富、回合级奖励塑形信号的方法,以加速探索过程,同时不改变最优策略。
- 消除奖励塑形中对用户目标先验知识的需求,实现实时部署与真实用户的交互。
- 评估RNN(特别是GRUs、LSTMs和基础RNN)在预测对话级回报以用作塑形信号方面的有效性。
- 证明基于RNN的塑形方法在模拟和真实用户在线训练场景中均能提升学习速度。
提出的方法
- 在模拟用户交互的对话级回报上训练门控循环神经网络(GRU),以预测回合级塑形奖励。
- 采用约束性训练目标,确保预测的塑形信号近似于连续信念状态之间势函数的差异,从而保持策略最优性。
- 在在线策略学习过程中,将RNN的回合级预测结果作为额外奖励信号,与原始环境奖励并行使用。
- 使用包含人工标注成功/失败标签和对话回报的对话数据集,通过监督学习训练RNN。
- 使用独立的训练集、验证集和测试集,涵盖不同对话长度和语义错误率,以评估泛化能力。
- 将基于RNN的塑形方法与需要任务知识的人工设计奖励塑形方法以及仅使用环境奖励的基线方法进行比较。
实验结果
研究问题
- RQ1RNN能否有效学习预测对话级回报,并生成能加速在线策略学习的回合级塑形信号?
- RQ2基于RNN的奖励塑形是否优于需要事先了解用户目标的人工设计塑形方法?
- RQ3基于RNN的塑形信号对语义错误率变化和有限训练数据的鲁棒性如何?
- RQ4在真实用户在线训练场景中,基于RNN的塑形信号能否提升策略收敛速度?
- RQ5当仅使用1,000条对话的小型数据集进行训练时,基于RNN的塑形信号是否依然有效?
主要发现
- 在仅使用1,000条对话进行训练时,基于GRU的RNN性能与基础RNN相当,表明其具有强大的数据效率,适用于人工标注数据集。
- 在模拟用户环境中,基于RNN的塑形信号显著加速了策略学习,优于基线方法和人工设计的塑形方法。
- 在通过Amazon Mechanical Turk进行的真实用户在线训练中,基于RNN的系统在前400轮对话中实现了更快的奖励提升,学习曲线优势明显。
- 该模型在不同语义错误率(0%、15%、30%、45%)下均表现出良好泛化能力,证明了对现实世界变化的鲁棒性。
- GRU模型在预测准确率和学习速度方面略优于基础RNN和LSTM,尽管差异未达到统计显著性。
- 约束性训练方法确保了塑形信号保持策略最优性,避免对最优行为造成意外改变。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。