Skip to main content
QUICK REVIEW

[论文解读] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel Cruz, Yunshu Du|arXiv (Cornell University)|Sep 12, 2017
Anomaly Detection Techniques and Applications被引用 26
一句话总结

本文提出通过少量非专家人类示范预训练深度强化学习(DRL)智能体,以加速特征学习。通过使用在人类轨迹上训练的监督分类器初始化DRL网络,该方法在Atari游戏中显著缩短了DQN和A3C的训练时间,即使示范数据存在噪声且数量有限,在Pong和Freeway游戏中仍实现了最高5倍的加速。

ABSTRACT

Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.

研究动机与目标

  • 解决深度强化学习(DRL)中因从原始图像学习状态表示而导致的长时间训练问题。
  • 通过使用人类示范而非随机初始化来预训练神经网络特征,降低DRL的样本复杂度。
  • 在不修改策略学习算法的前提下提升训练效率,仅专注于特征表示的优化。
  • 证明使用非专家人类示范进行预训练可在DRL中带来显著的性能提升。
  • 在数据收集成本较高的现实场景中,实现DRL的更快部署。

提出的方法

  • 使用少量人类示范轨迹数据集,通过监督学习预训练深度神经网络,其中每帧图像均与对应采取的动作配对。
  • 将预训练分类器的权重用作DRL智能体的初始策略网络,初始化卷积层和全连接层。
  • 在深度Q网络(DQN)和异步优势演员评论者(A3C)算法中均应用预训练网络作为初始策略。
  • 从预训练权重开始训练DRL智能体,相比随机初始化可实现更快收敛。
  • 使用标准DRL指标(如人类归一化得分和达到目标性能所需的训练步数)在Atari 2600游戏(Pong、Freeway、Beamrider)上评估性能。
  • 通过计算网络各层间预训练权重与最终训练权重的均方误差(MSE),量化特征相似性,以评估特征保留程度。

实验结果

研究问题

  • RQ1使用非专家人类示范对深度神经网络进行预训练,是否能显著缩短深度强化学习中的训练时间?
  • RQ2与随机权重初始化相比,使用有限且含噪声的人类示范进行预训练,在学习速度和最终性能方面表现如何?
  • RQ3在后续的深度强化学习训练过程中,预训练阶段学习到的特征在多大程度上得以保留?
  • RQ4人类示范的质量(如噪声水平、非专业性)是否会影响预训练在DRL中的有效性?
  • RQ5该预训练方法是否可泛化至不同DRL算法(如DQN和A3C)?

主要发现

  • 仅使用100个示范轨迹回合,DQN在Pong和Freeway上的训练时间最多缩短5倍,显著优于随机初始化。
  • 当使用预训练权重初始化时,A3C在Pong上的学习速度也实现了5倍加速,表明该方法在不同算法间具有强泛化能力。
  • 预训练权重与最终训练权重之间的均方误差(MSE)始终低于随机初始化,表明预训练特征在RL训练过程中得以保留。
  • 卷积滤波器的可视化显示,预训练特征(如边缘和运动检测器)在DRL训练过程中被保留并进一步优化,证实了特征迁移的有效性。
  • 即使示范数据中动作分布不平衡,预训练分类器仍能学习到有用特征,表明对数据不平衡具有鲁棒性。
  • 该方法在所有三款Atari游戏(Pong、Freeway、Beamrider)中均实现了稳定提升,其中Pong的增益最大,因其具有高度重复的游戏状态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。