QUICK REVIEW

[论文解读] Fast Task Inference with Variational Intrinsic Successor Features

Steven Hansen, Will Dabney|arXiv (Cornell University)|Jun 12, 2019

Reinforcement Learning in Robotics参考文献 42被引用 22

一句话总结

该论文提出了一种新型强化学习算法——变分内在后续特征（VISR），通过将变分内在控制与后续特征相结合，实现在无监督预训练后快速、可泛化的任务推理。通过行为互信息最大化学习可控制的特征，并利用线性奖励回归实现快速策略适应，VISR 在 12 款 Atari 游戏中达到人类水平表现，优于所有基线方法，包括使用监督微调或大量交互的模型。

ABSTRACT

It has been established that diverse behaviors spanning the controllable subspace of an Markov decision process can be trained by rewarding a policy for being distinguishable from other policies \citep{gregor2016variational, eysenbach2018diversity, warde2018unsupervised}. However, one limitation of this formulation is generalizing behaviors beyond the finite set being explicitly learned, as is needed for use on subsequent tasks. Successor features \citep{dayan93improving, barreto2017successor} provide an appealing solution to this generalization problem, but require defining the reward function as linear in some grounded feature space. In this paper, we show that these two techniques can be combined, and that each method solves the other's primary limitation. To do so we introduce Variational Intrinsic Successor FeatuRes (VISR), a novel algorithm which learns controllable features that can be leveraged to provide enhanced generalization and fast task inference through the successor feature framework. We empirically validate VISR on the full Atari suite, in a novel setup wherein the rewards are only exposed briefly after a long unsupervised phase. Achieving human-level performance on 14 games and beating all baselines, we believe VISR represents a step towards agents that rapidly learn from limited feedback.

研究动机与目标

解决通过行为互信息（BMI）最大化学习多样化行为的无监督强化学习方法在泛化能力差和推理速度慢方面的问题。
解决自动学习适用于后续特征（SFs）的特征这一开放问题，后者需要线性参数化的奖励函数。
将 BMI 与 SFs 整合为统一框架，实现在极少奖励反馈下对新任务的快速、数据高效适应。
在真实场景中验证该方法：智能体经历长时间无监督阶段后仅接受短暂奖励信号，模拟现实世界中的少样本学习。

提出的方法

VISR 通过变分推理学习解耦且可控制的潜在空间，最大化潜在代码与状态访问分布之间的互信息。
利用该潜在空间定义后续特征（SFs），后者表示在特定策略下未来状态的预期访问情况，从而实现价值函数的线性函数逼近。
求解线性奖励回归问题，从稀疏奖励信号中推断最优任务向量（即策略潜在代码），实现在无需重训练情况下的快速推理。
该方法利用 BMI 学习的特征天然适合 SFs 的事实，因为它们捕捉了可控制且语义有意义的行为。
通过在不同潜在代码下收集的状态访问数据进行线性回归执行任务推理，避免了昂贵的搜索或重训练。
该方法支持使用推断出的策略对任意强化学习算法进行热启动，从而实现进一步微调以提升性能。

实验结果

研究问题

RQ1能否利用行为互信息最大化来学习适合后续特征的特征，从而实现快速迁移学习？
RQ2将 BMI 与后续特征结合是否能相比标准 BMI 或仅使用 SF 的方法，实现更快且更具泛化能力的任务推理？
RQ3VISR 是否能在仅经历长时间无监督阶段后接受短暂奖励暴露的少步强化学习设置中实现优异性能？
RQ4与潜在空间中的随机搜索或穷举搜索相比，线性奖励回归在任务推理中是否更有效？
RQ5在样本效率和最终性能方面，VISR 与监督微调和基于好奇心的方法相比表现如何？

主要发现

在仅经历无监督预训练后接受短暂奖励暴露的少步强化学习设置中，VISR 在 57 款 Atari 游戏中的 12 款达到了人类水平表现。
在 57 款游戏中，线性奖励回归在 41 款中优于随机搜索，其平均回报为 8.99，而随机搜索为 3.45。
在所有 57 款游戏中，使用奖励回归的平均人类归一化回报为 109.16，而使用随机搜索为 63.57，且使用相同数据。
VISR 在相同的少步强化学习设置中优于所有基线方法，包括使用监督微调和基于好奇心的探索方法。
在 Pathak 等人（2017）的 26 款游戏中，VISR 仅使用 100 万次转移就达到了或超过了 DQN 的性能，而 DQN 需要 2 亿次转移才能达到 VISR 的水平。
VISR 的完全无监督版本性能低于监督基线，表明在预训练阶段的探索方面仍有改进空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。