QUICK REVIEW

[论文解读] Discovery of Useful Questions as Auxiliary Tasks

Vivek Veeriah, Matteo Hessel|arXiv (Cornell University)|Sep 10, 2019

Neural Networks and Reservoir Computing被引用 38

一句话总结

论文介绍了一种多步元梯度方法，用于发现基于GVF的问题，作为辅助任务，使学习表征支持主要RL任务并提高数据效率，包括Atari基准。

ABSTRACT

Arguably, intelligent agents ought to be able to discover their own questions so that in learning answers for them they learn unanticipated useful knowledge and skills; this departs from the focus in much of machine learning on agents learning answers to externally defined questions. We present a novel method for a reinforcement learning (RL) agent to discover questions formulated as general value functions or GVFs, a fairly rich form of knowledge representation. Specifically, our method uses non-myopic meta-gradients to learn GVF-questions such that learning answers to them, as an auxiliary task, induces useful representations for the main task faced by the RL agent. We demonstrate that auxiliary tasks based on the discovered GVFs are sufficient, on their own, to build representations that support main task learning, and that they do so better than popular hand-designed auxiliary tasks from the literature. Furthermore, we show, in the context of Atari 2600 videogames, how such auxiliary tasks, meta-learned alongside the main task, can improve the data efficiency of an actor-critic agent.

研究动机与目标

促使智能体自主发现那些可以回答的问题，以获得对主要强化学习任务有价值的表征。
提出一种有原则的方法，利用元梯度自动发现GVF问题，以优化对主任务的表征有用性。
证明以这种方式发现的基于GVF的辅助任务在表征学习中足够使用，并且可以优于手工设计的辅助任务。
表明在主任务学习的同时学习的元学习GVFs 可以在Atari中提高数据效率。
评估跨领域使用非短视（多步）元梯度进行发现的利与弊。

提出的方法

给出一个神经网络架构，其中包含一个主任务网络（策略/价值）和一个单独的问题网络，该网络对 GVF 的累积量和折扣进行参数化。
使用非短视的多步元梯度，通过对L次内部RL更新回传到元损失来更新问题网络的元参数。
在演员-评论家设定中实现该方法，其中 GVF 的答案通过广义TD更新沿着策略主任务进行学习。
在 gridworld、Collect-Objects 和 Atari 领域中，将发现的 GVF 与手工设计的基线（奖励预测、像素控制、随机 GVFs）进行比较。
评估表征学习场景（GVF 单独即可完成主任务学习）和联合学习场景（GVF 加上主任务更新以提升数据效率）。

实验结果

研究问题

RQ1元梯度是否能发现 GVF 问题，使得学习它们的答案足以学习复杂RL任务的表征？
RQ2与手工设计的辅助任务相比，与主RL任务一起学习的已发现GVF基辅助任务是否能提高数据效率？
RQ3GVF 问题的数量和元展开长度如何影响学习稳定性和性能？
RQ4在大规模领域中发现有用GVFs时，非短视元梯度是否必不可少？
RQ5在包括 Atari 的多个领域中，发现的 GVF 相对于手工设计的辅助任务的表现如何？

主要发现

发现的 GVF 可以产生支持网格世界中最优策略的表征，并在训练后在 Atari 上取得竞争性表现。
通过元梯度学习的基于GVF的辅助任务在若干领域中优于像奖励预测和像素控制等手工设计的任务。
与已发现GVFs的联合学习相对于基线可以提高数据效率，收益因游戏和任务难度而异。
在他们的实验中，元损失曲线下的面积比上一个批次的元损失提供更稳定的学习。
GVF 问题过多或元展开过长可能会削弱训练效率或性能，表明需要对超参数进行仔细选择。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。