[论文解读] Distilling Policy Distillation
论文对 reinforcement learning 中的 policy distillation 领域进行了综述,分析何时 on-policy student-driven distillation 能收敛,以及提出最佳实践的 expected entropy regularised distillation,并给出利用 teacher critics 的方法。
The transfer of knowledge from one policy to another is an important tool in Deep Reinforcement Learning. This process, referred to as distillation, has been used to great success, for example, by enhancing the optimisation of agents, leading to stronger performance faster, on harder domains [26, 32, 5, 8]. Despite the widespread use and conceptual simplicity of distillation, many different formulations are used in practice, and the subtle variations between them can often drastically change the performance and the resulting objective that is being optimised. In this work, we rigorously explore the entire landscape of policy distillation, comparing the motivations and strengths of each variant through theoretical and empirical analysis. Our results point to three distillation techniques, that are preferred depending on specifics of the task. Specifically a newly proposed expected entropy regularised distillation allows for quicker learning in a wide range of situations, while still guaranteeing convergence.
研究动机与目标
- 澄清 RL 中使用的 policy distillation 形式谱及其动机。
- 表征何时 on-policy、student-driven distillation 收敛,以及何时可能振荡或失败。
- 探究 actor-critic 设置以及教师价值函数如何帮助蒸馏。
- 提出鲁棒的蒸馏变体以及选择方法的实用决策指南。
- 在成千上万的随机 MDPs 中实证比较蒸馏方法以得出最佳实践。
提出的方法
- 系统地在理论和经验上比较蒸馏变体(teacher distill、on-policy distill、on-policy distill+R、entropy regularised、N-distill、exp. entropy regularised、Teacher V reward)。
- 证明使用学生生成的轨迹进行 on-policy distillation 在一般情况下并不形成梯度向量场;并且在存在奖励时可能振荡,且展示如何恢复梯度场性质。
- 引入并验证 expected entropy regularised distillation 作为一个对梯度友好、方差低且忠实复制的方法。
- 探索教师的价值函数可用的 actor-critic 情景,展示 V 如何具有门控效应以改进或引导学习。
- 使用成千上万的随机 MDPs 比较控制-策略选择(teacher-driven、student-driven、uniform)和更新规则,提出实用指南。
实验结果
研究问题
- RQ1在何种条件下 on-policy、student-driven distillation 收敛或振荡?
- RQ2当存在奖励时,是否可以为蒸馏实现与梯度向量场一致的更新?
- RQ3如何将教师价值函数整合到 actor-critic 设置中以改进蒸馏?
- RQ4哪种蒸馏变体在多样化的 MDPs 中提供可靠的收敛和快速学习?
- RQ5基于任务特征,选取蒸馏方法会出现哪些实用指南?
主要发现
- 使用学生生成轨迹的 on-policy 蒸馏通常不形成梯度向量场;在存在奖励时可能无法收敛;但可以进行梯度一致性校正。
- 学生驱动蒸馏在学生相关的状态分布上更快更广泛地复制教师行为,在经验测试中优于教师驱动蒸馏。
- 所提出的 expected entropy regularised distillation 是最可靠的变体,兼具梯度场有效性、低方差和有效的轨迹级克隆。
- 使用教师的 critic 对学习进行门控或引导,在教师不完美或嘈杂时可以恢复或提升性能。
- 在 actor-critic 设置中,利用教师价值函数可以在某些条件下确保学生的表现不低于教师;来自教师 critic 的内在奖励塑造学习动态。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。