[论文解读] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning
本文提出通过少量非专家人类示范预训练深度强化学习(DRL)智能体,以加速特征学习。通过使用在人类轨迹上训练的监督分类器初始化DRL网络,该方法在Atari游戏中显著缩短了DQN和A3C的训练时间,即使示范数据存在噪声且数量有限,在Pong和Freeway游戏中仍实现了最高5倍的加速。
Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.
研究动机与目标
- 解决深度强化学习(DRL)中因从原始图像学习状态表示而导致的长时间训练问题。
- 通过使用人类示范而非随机初始化来预训练神经网络特征,降低DRL的样本复杂度。
- 在不修改策略学习算法的前提下提升训练效率,仅专注于特征表示的优化。
- 证明使用非专家人类示范进行预训练可在DRL中带来显著的性能提升。
- 在数据收集成本较高的现实场景中,实现DRL的更快部署。
提出的方法
- 使用少量人类示范轨迹数据集,通过监督学习预训练深度神经网络,其中每帧图像均与对应采取的动作配对。
- 将预训练分类器的权重用作DRL智能体的初始策略网络,初始化卷积层和全连接层。
- 在深度Q网络(DQN)和异步优势演员评论者(A3C)算法中均应用预训练网络作为初始策略。
- 从预训练权重开始训练DRL智能体,相比随机初始化可实现更快收敛。
- 使用标准DRL指标(如人类归一化得分和达到目标性能所需的训练步数)在Atari 2600游戏(Pong、Freeway、Beamrider)上评估性能。
- 通过计算网络各层间预训练权重与最终训练权重的均方误差(MSE),量化特征相似性,以评估特征保留程度。
实验结果
研究问题
- RQ1使用非专家人类示范对深度神经网络进行预训练,是否能显著缩短深度强化学习中的训练时间?
- RQ2与随机权重初始化相比,使用有限且含噪声的人类示范进行预训练,在学习速度和最终性能方面表现如何?
- RQ3在后续的深度强化学习训练过程中,预训练阶段学习到的特征在多大程度上得以保留?
- RQ4人类示范的质量(如噪声水平、非专业性)是否会影响预训练在DRL中的有效性?
- RQ5该预训练方法是否可泛化至不同DRL算法(如DQN和A3C)?
主要发现
- 仅使用100个示范轨迹回合,DQN在Pong和Freeway上的训练时间最多缩短5倍,显著优于随机初始化。
- 当使用预训练权重初始化时,A3C在Pong上的学习速度也实现了5倍加速,表明该方法在不同算法间具有强泛化能力。
- 预训练权重与最终训练权重之间的均方误差(MSE)始终低于随机初始化,表明预训练特征在RL训练过程中得以保留。
- 卷积滤波器的可视化显示,预训练特征(如边缘和运动检测器)在DRL训练过程中被保留并进一步优化,证实了特征迁移的有效性。
- 即使示范数据中动作分布不平衡,预训练分类器仍能学习到有用特征,表明对数据不平衡具有鲁棒性。
- 该方法在所有三款Atari游戏(Pong、Freeway、Beamrider)中均实现了稳定提升,其中Pong的增益最大,因其具有高度重复的游戏状态。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。