QUICK REVIEW

[论文解读] Many-Goals Reinforcement Learning

Vivek Veeriah, Junhyuk Oh|arXiv (Cornell University)|Jun 22, 2018

Reinforcement Learning in Robotics参考文献 17被引用 29

一句话总结

本文提出使用多目标强化学习（RL）与深度神经网络，以在视觉RL环境中实现无监督掌握、预训练和辅助任务学习。通过使用共享神经网络，在每个经验转移中同时更新多个目标的Q值，该方法在49款Atari游戏中优于A2C及其他基线模型，辅助任务设置下的中位人类归一化得分为42.3%，在预训练和无监督掌握方面也取得了显著提升。

ABSTRACT

All-goals updating exploits the off-policy nature of Q-learning to update all possible goals an agent could have from each transition in the world, and was introduced into Reinforcement Learning (RL) by Kaelbling (1993). In prior work this was mostly explored in small-state RL problems that allowed tabular representations and where all possible goals could be explicitly enumerated and learned separately. In this paper we empirically explore 3 different extensions of the idea of updating many (instead of all) goals in the context of RL with deep neural networks (or DeepRL for short). First, in a direct adaptation of Kaelbling's approach we explore if many-goals updating can be used to achieve mastery in non-tabular visual-observation domains. Second, we explore whether many-goals updating can be used to pre-train a network to subsequently learn faster and better on a single main task of interest. Third, we explore whether many-goals updating can be used to provide auxiliary task updates in training a network to learn faster and better on a single main task of interest. We provide comparisons to baselines for each of the 3 extensions.

研究动机与目标

探究深度神经网络是否能在无需显式奖励设计或预定义主任务的情况下，实现对大量未见目标的泛化掌握。
评估无监督多目标学习是否可作为有效的预训练方法，以加速并提升下游主RL任务的性能。
评估将多目标更新作为辅助任务是否能相比现有辅助方法（如像素控制和奖励预测）提升表征学习和主任务性能。
将Kaelbling的全部目标更新框架——原限于表格型RL——扩展至视觉连续观测空间中目标集未知的深度RL。
确定在深度网络中使用离策略多目标更新是否能生成无需特定任务奖励函数的鲁棒且可泛化的策略。

提出的方法

通过在所有目标间共享单一神经网络，将Kaelbling的离策略全部目标更新方法适配至深度RL，使用单一Q网络估计多个目标的动作值。
在无监督掌握设置中，训练共享Q网络以更新每个经验轨迹最后一帧所衍生的所有目标的Q值，且不使用任何外在奖励。
在预训练设置中，首先使用离策略更新在大量目标上训练智能体，然后使用在线策略A2C在主任务上微调预训练网络。
在辅助任务设置中，联合优化主A2C目标与多目标Q学习目标，其中目标设定为采样轨迹的最终观测。
使用回放缓冲区存储K个最佳轨迹，并采样长度为n的轨迹，结合演员-评论家与离策略Q学习目标，更新多目标Q网络。
在7款Atari游戏的保留验证集上将超参数β（控制多目标损失的权重）调优至0.02，随后在全部49款游戏中统一应用该值。

实验结果

研究问题

RQ1通过离策略多目标更新训练的深度神经网络，是否能在无任何显式奖励或主任务的情况下，在视觉RL环境中实现无监督掌握？
RQ2与无预训练或奖励预测预训练相比，使用多目标更新进行预训练是否能提升下游主RL任务的性能？
RQ3多目标更新能否作为有效的辅助任务，提升深度RL中的表征学习和主任务性能？
RQ4在Atari环境中，多目标学习的性能与像素控制和奖励预测等先进辅助任务方法相比如何？
RQ5在主任务目标与多目标辅助目标之间，最优的超参数β平衡点是什么？

主要发现

在无监督掌握设置中，智能体仅通过泛化能力，便在保留的目标集合上实现了约60%的掌握率，且未使用任何外在奖励或主任务。
在预训练设置中，多目标学习显著优于无预训练和奖励预测预训练，大幅提升了49款Atari游戏的中位性能。
在辅助任务设置中，多目标学习在49款Atari游戏上实现了42.3%的中位人类归一化得分，优于A2C（32.8%）、像素控制（34.6%）和奖励预测（35.2%）等基线方法。
该方法在多数游戏的预训练和辅助任务实验中均表现出一致的性能提升，表明其具有更优的表征学习能力。
在7款游戏的验证集上，主任务与多目标目标结合的最优超参数β被确定为0.02，且该值在其余42款游戏中也表现出良好的泛化能力。
结果表明，深度RL中的多目标更新能够有效实现无监督掌握、高效预训练和强大的辅助学习，相较于多个基线方法展现出显著的实证优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。