QUICK REVIEW

[论文解读] Reinforcement Learning with Unsupervised Auxiliary Tasks

Max Jaderberg, Volodymyr Mnih|arXiv (Cornell University)|Nov 16, 2016

Reinforcement Learning in Robotics被引用 271

一句话总结

UNREAL 在 A3C 的基础上加入无监督的辅助任务（像素控制、奖励预测、价值函数回放），以学习更丰富的表征，从而提升 Atari 与 Labyrinth 上的数据效率和性能。

ABSTRACT

Deep reinforcement learning agents have achieved state-of-the-art results by directly maximising cumulative reward. However, environments contain a much wider variety of possible training signals. In this paper, we introduce an agent that also maximises many other pseudo-reward functions simultaneously by reinforcement learning. All of these tasks share a common representation that, like unsupervised learning, continues to develop in the absence of extrinsic rewards. We also introduce a novel mechanism for focusing this representation upon extrinsic rewards, so that learning can rapidly adapt to the most relevant aspects of the actual task. Our agent significantly outperforms the previous state-of-the-art on Atari, averaging 880\% expert human performance, and a challenging suite of first-person, three-dimensional \emph{Labyrinth} tasks leading to a mean speedup in learning of 10$ imes$ and averaging 87\% expert human performance on Labyrinth.

研究动机与目标

通过学习额外的伪奖励来促进更快且更鲁棒的学习，从而补充外在奖励。
开发共享表示（CNN-LSTM），使基线任务和辅助任务都能受益。
通过以奖励为焦点的辅助目标引导学习的表示向外在奖励偏倚。
利用经验回放加速值迭代并支持离策略的辅助学习。

提出的方法

引入辅助控制任务（像素控制与特征控制）作为额外的伪奖励函数，以训练与基线智能体共享参数的独立辅助策略。
添加辅助奖励任务（奖励预测），使特征学习偏向于预测即将到来的奖励，而不偏向策略。
加入价值函数回放，对回放数据执行离策略的值更新。
使用偏斜回放采样对奖励事件进行过采样以便于奖励预测，并通过离策略辅助任务保持稳定性。
将损失整合为 UNREAL 目标：L_UNREAL = L_A3C + lambda_VR L_VR + lambda_PC sum_c L_Q^(c) + lambda_RP L_RP (Equation 2)。
在基线任务和辅助任务之间共享 CNN-LSTM 表征，并对基于策略的 A3C 更新应用离策略辅助任务更新。

实验结果

研究问题

RQ1在具有挑战性的视觉环境中，增加的辅助控制与奖励任务是否比原生 A3C 提高样本效率？
RQ2与基线相比，辅助任务对超参数（学习率、熵代价）是否更鲁棒？
RQ3辅助任务是否在 3D Labyrinth 与 Atari 系列上提升最终性能，超越标准的无监督重构？
RQ4在各任务之间共享一个共同表示对学习速度和最终策略质量有何影响？

主要发现

UNREAL 在 Labyrinth 上实现了 87% 的人类标准化分数（A3C 为 54%）。
UNREAL 在 Labyrinth 上的学习速度平均提高约 10 倍（某些关卡最高可达 18 倍）。
在 Atari 上，UNREAL 超越了此前的最优状态，达到平均 880% 与中位 250% 的人类标准化性能。
相较于 A3C，UNREAL 在各任务上对超参数设置显示出更强的鲁棒性。
辅助任务，特别是像素控制与奖励预测，显著提升了数据效率和最终性能，相对于基线和基于重构的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。