QUICK REVIEW

[论文解读] Policy Distillation

Andrei A. Rusu, Sergio Gómez Colmenarejo|arXiv (Cornell University)|Nov 19, 2015

Neural Networks and Reservoir Computing被引用 87

一句话总结

本文提出策略蒸馏（policy distillation）方法，可将深度Q网络（DQN）的策略无性能损失地迁移至更小、更高效的“学生”网络。该方法实现模型压缩、多任务策略整合与在线蒸馏，使在Atari环境下的性能优于单任务教师网络与联合训练的DQN智能体。

ABSTRACT

Policies for complex visual tasks have been successfully learned with deep reinforcement learning, using an approach called deep Q-networks (DQN), but relatively large (task-specific) networks and extensive training are needed to achieve good performance. In this work, we present a novel method called policy distillation that can be used to extract the policy of a reinforcement learning agent and train a new network that performs at the expert level while being dramatically smaller and more efficient. Furthermore, the same method can be used to consolidate multiple task-specific policies into a single policy. We demonstrate these claims using the Atari domain and show that the multi-task distilled agent outperforms the single-task teachers as well as a jointly-trained DQN agent.

研究动机与目标

解决通过DQN训练的深度强化学习智能体存在的高计算成本与大模型尺寸问题。
通过蒸馏技术，实现从大型、任务特定的DQN教师网络到更小、更高效的学生网络的知识迁移。
将多个单任务DQN策略蒸馏为一个统一的多任务策略，使其表现优于单个教师网络。
探索在线蒸馏方法，通过在训练过程中持续追踪表现最佳的策略，以稳定DQN训练。

提出的方法

训练学生网络以模仿预训练DQN教师网络的动作价值输出分布，使用软标签（soft labels）。
采用温度缩放的softmax函数，使动作价值分布更平滑，从而提升知识迁移效果。
应用知识蒸馏损失函数，根据动作差距对动作分类进行加权，类似CAPI框架的设计。
使用监督回归方法，在教师策略生成的轨迹上训练学生网络。
通过定期用当前表现最佳的DQN策略更新学生网络，实现在线蒸馏。
采用多控制器架构，共享卷积特征提取层，使用任务特定的输出头，以实现多款游戏的泛化能力。

实验结果

研究问题

RQ1策略蒸馏能否在不造成性能下降的前提下，有效将DQN策略压缩为更小、更高效的模型？
RQ2能否将多个单任务DQN策略蒸馏为一个统一的多任务策略，使其泛化能力优于单个教师网络？
RQ3在线蒸馏是否能通过实时追踪最佳表现策略，稳定DQN训练过程？
RQ4当教师策略在训练过程中发生显著演化时，蒸馏方法的性能如何？
RQ5在强化学习中，哪种损失函数设计能取得最佳蒸馏性能——尤其在非概率性、实值动作价值设置下？

主要发现

策略蒸馏可将DQN模型大小压缩至原大小的1/15，且在单款Atari游戏任务上无性能损失。
蒸馏后的多任务智能体在10个单任务DQN教师网络的几何平均性能上达到89.3%，在Q*bert和Seaquest等多款游戏中表现优于单个教师网络。
在三款游戏的多任务设置中，蒸馏智能体（Multi-Dist-KL）性能达到单任务DQN教师网络的116.9%，显著优于联合训练的多任务DQN智能体（83.5%）。
在线蒸馏使学生智能体在训练过程中表现出与DQN教师相当或更优的性能，且训练方差显著降低。
采用基于动作差距加权的软max损失函数（如CAPI框架）效果最佳，表明损失函数设计在强化学习蒸馏中至关重要。
即使在无迭代交互或无法控制数据分布的条件下，强化学习中的蒸馏依然有效，证实其作为通用正则化技术的潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。