[论文解读] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog
本文开发了带有 KL-control 的脱离策略离线批量深度强化学习方法,并结合基于 dropout 的不确定性,从固定的人机交互数据中学习对话策略,在开放域对话中相较基线没有在线探索也取得改进。
Most deep reinforcement learning (RL) systems are not able to learn effectively from off-policy data, especially if they cannot explore online in the environment. These are critical shortcomings for applying RL to real-world problems where collecting data is expensive, and models must be tested offline before being deployed to interact with the environment -- e.g. systems that learn from human interaction. Thus, we develop a novel class of off-policy batch RL algorithms, which are able to effectively learn offline, without exploring, from a fixed batch of human interaction data. We leverage models pre-trained on data as a strong prior, and use KL-control to penalize divergence from this prior during RL training. We also use dropout-based uncertainty estimates to lower bound the target Q-values as a more efficient alternative to Double Q-Learning. The algorithms are tested on the problem of open-domain dialog generation -- a challenging reinforcement learning problem with a 20,000-dimensional action space. Using our Way Off-Policy algorithm, we can extract multiple different reward functions post-hoc from collected human interaction data, and learn effectively from all of these. We test the real-world generalization of these systems by deploying them live to converse with humans in an open-domain setting, and demonstrate that our algorithm achieves significant improvements over prior methods in off-policy batch RL.
研究动机与目标
- 在开放域对话强化学习中使能从固定的人机交互数据批次学习,无需在线探索。
- 利用强的预训练先验通过 KL-control 来规则化策略更新以降低发散。
- 使用基于 dropout 的不确定性来对目标 Q 值下界化,作为 Double Q-Learning 的替代。
- 通过后验奖励函数演示从隐式人类偏好(情感、参与度等)中学习。
- 通过与人类用户在线部署模型来评估鲁棒性和泛化。
提出的方法
- 以已知轨迹为基础预训练状态-动作空间的生成模型作为先验。
- 使用固定批次对 Q 网络进行训练,最小化 Bellman 类目标(Batch Q)。
- 引入基于 dropout 的不确定性估计以获得对目标 Q 值的悲观下界(Batch Q MC)。
- 使用预训练先验将 Batch Constrained Q-learning 适应到离散动作空间(Discrete Batch Constrained Q - DBCQ)。
- 引入 KL-control 以惩罚与先验的发散并推导包含先验似然和熵项的 KL 正则化 Q 函数(Psi-函数形式)。
- 可选地对多个先验进行模型平均以形成更鲁棒学习的模型平均先验。
实验结果
研究问题
- RQ1离线 BRL 能否利用强大的预训练先验在没有环境探索的情况下学习出有效的对话策略?
- RQ2来自预训练先验的 KL-control 是否能在高维动作空间(如开放域对话)中稳定学习并减少 Q 值高估?
- RQ3基于 dropout 的不确定性估计与双重 Q 学习相比,在离线 BRL 的语言生成中对抗过估计有何差异?
- RQ4从交互数据中事后能够检索到哪些隐式的人类奖励信号(情感、参与度等)来训练对话策略?
- RQ5KL-control、Psi-learning 与模型平均先验在真实世界部署和用户感知的开放域对话代理质量方面有何影响?
主要发现
| Model type | Quality | Fluent | Diverse | Related | Empathy | Total | Votes | Human reward |
|---|---|---|---|---|---|---|---|---|
| DBCQ | 1.64 \u0000b1 .29 | 1.87 \u0000b1 .34 | 3.13 \u0000b1 .58 | 1.84 \u0000b1 .34 | 2.09 \u0000b1 .38 | 10.58 \u0000b1 1.55 | -0.228 | -0.050 |
| Batch Q | 1.87 \u0000b1 .30 | 2.36 \u0000b1 .42 | 2.20 \u0000b1 .41 | 1.91 \u0000b1 .32 | 2.58 \u0000b1 .47 | 11.91 \u0000b1 1.58 | -0.163 | -0.005 |
| Batch Q MC | 1.85 \u0000b1 .39 | 2.46 \u0000b1 .44 | 2.46 \u0000b1 .52 | 1.98 \u0000b1 .39 | 2.34 \u0000b1 .47 | 11.07 \u0000b1 1.82 | -0.068 | 0.005 |
| KL-control Q | 2.38 \u0000b1 .39 | 3.24 \u0000b1 .47 | 3.42 \u0000b1 .54 | 2.38 \u0000b1 .45 | 2.56 \u0000b1 .43 | 13.98 \u0000b1 1.81 | -0.016 | 0.004 |
| KL-control \u0003cPsi\u0003c | 2.33 \u0000b1 .41 | 3.73 \u0000b1 .53 | 2.82 \u0000b1 .50 | 2.31 \u0000b1 .44 | 3.47 \u0000b1 .50 | 14.67 \u0000b1 1.82 | 0.128 | 0.061 |
| KL-control MA \u0003cPsi\u0003c | 2.60 \u0000b1 .43 | 3.47 \u0000b1 .42 | 3.00 \u0000b1 .49 | 2.49 \u0000b1 .44 | 2.89 \u0000b1 .51 | 14.44 \u0000b1 1.96 | 0.127 | 0.042 |
- KL-control 模型在人工评估指标和隐式奖励上显著优于基线。
- 基于 dropout 的不确定性估计提供了一个目标 Q 值的下界估计,有助于缓解过估计且不需要多重目标网络。
- 模型平均先验(MA)在多样的数据源和架构上提升鲁棒性。
- 与仅追求奖励的基线相比,维持与预训练先验接近的策略能产生更可信、礼貌且更具参与性的对话。
- 基于情感、参与度(词)、笑声、语义相似性和提问行为的隐式奖励可以引导学习走向更高质量的对话。
- 在开放域对话的 BRL 中,带有强先验的 KL-control 对于稳定学习和性能提升至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。