QUICK REVIEW

[论文解读] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel Cruz, Yunshu Du|arXiv (Cornell University)|Sep 12, 2017

Anomaly Detection Techniques and Applications被引用 26

一句话总结

本文提出通过少量非专家人类示范预训练深度强化学习（DRL）智能体，以加速特征学习。通过使用在人类轨迹上训练的监督分类器初始化DRL网络，该方法在Atari游戏中显著缩短了DQN和A3C的训练时间，即使示范数据存在噪声且数量有限，在Pong和Freeway游戏中仍实现了最高5倍的加速。

ABSTRACT

Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.

研究动机与目标

解决深度强化学习（DRL）中因从原始图像学习状态表示而导致的长时间训练问题。
通过使用人类示范而非随机初始化来预训练神经网络特征，降低DRL的样本复杂度。
在不修改策略学习算法的前提下提升训练效率，仅专注于特征表示的优化。
证明使用非专家人类示范进行预训练可在DRL中带来显著的性能提升。
在数据收集成本较高的现实场景中，实现DRL的更快部署。

提出的方法

使用少量人类示范轨迹数据集，通过监督学习预训练深度神经网络，其中每帧图像均与对应采取的动作配对。
将预训练分类器的权重用作DRL智能体的初始策略网络，初始化卷积层和全连接层。
在深度Q网络（DQN）和异步优势演员评论者（A3C）算法中均应用预训练网络作为初始策略。
从预训练权重开始训练DRL智能体，相比随机初始化可实现更快收敛。
使用标准DRL指标（如人类归一化得分和达到目标性能所需的训练步数）在Atari 2600游戏（Pong、Freeway、Beamrider）上评估性能。
通过计算网络各层间预训练权重与最终训练权重的均方误差（MSE），量化特征相似性，以评估特征保留程度。

实验结果

研究问题

RQ1使用非专家人类示范对深度神经网络进行预训练，是否能显著缩短深度强化学习中的训练时间？
RQ2与随机权重初始化相比，使用有限且含噪声的人类示范进行预训练，在学习速度和最终性能方面表现如何？
RQ3在后续的深度强化学习训练过程中，预训练阶段学习到的特征在多大程度上得以保留？
RQ4人类示范的质量（如噪声水平、非专业性）是否会影响预训练在DRL中的有效性？
RQ5该预训练方法是否可泛化至不同DRL算法（如DQN和A3C）？

主要发现

仅使用100个示范轨迹回合，DQN在Pong和Freeway上的训练时间最多缩短5倍，显著优于随机初始化。
当使用预训练权重初始化时，A3C在Pong上的学习速度也实现了5倍加速，表明该方法在不同算法间具有强泛化能力。
预训练权重与最终训练权重之间的均方误差（MSE）始终低于随机初始化，表明预训练特征在RL训练过程中得以保留。
卷积滤波器的可视化显示，预训练特征（如边缘和运动检测器）在DRL训练过程中被保留并进一步优化，证实了特征迁移的有效性。
即使示范数据中动作分布不平衡，预训练分类器仍能学习到有用特征，表明对数据不平衡具有鲁棒性。
该方法在所有三款Atari游戏（Pong、Freeway、Beamrider）中均实现了稳定提升，其中Pong的增益最大，因其具有高度重复的游戏状态。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。