QUICK REVIEW

[论文解读] Implicit Quantile Networks for Distributional Reinforcement Learning

Will Dabney, Georg Ostrovski|arXiv (Cornell University)|Jun 14, 2018

Reinforcement Learning in Robotics参考文献 46被引用 197

一句话总结

IQN 学习回报分布的完整分位函数，以实现分布式与风险敏感强化学习，在 Atari-57 上取得强劲结果并与 Rainbow 的性能相竞争。

ABSTRACT

In this work, we build on recent advances in distributional reinforcement learning to give a generally applicable, flexible, and state-of-the-art distributional variant of DQN. We achieve this by using quantile regression to approximate the full quantile function for the state-action return distribution. By reparameterizing a distribution over the sample space, this yields an implicitly defined return distribution and gives rise to a large class of risk-sensitive policies. We demonstrate improved performance on the 57 Atari 2600 games in the ALE, and use our algorithm's implicitly defined distributions to study the effects of risk-sensitive policies in Atari games.

研究动机与目标

将分布式 RL 作为对回报完整分布的建模（而不仅是其均值）来提出动机。
提出一个灵活的 IQN 方法，通过重参数化学习隐式分位函数。
通过允许对学习到的分布进行扭曲风险度量来实现风险敏感策略。
展示在 Atari-57 上的性能提升并探索鲁棒性与风险敏感行为。

提出的方法

通过对来自 U([0,1]) 的基本样本 tau 进行可微嵌入的重参数化，来对状态-动作分位函数 Z_tau(x,a) 进行建模。
使用 IQN 损失进行训练，该损失在 tau 的样本对上平均分位回归损失，最小化与 Wasserstein 一致的目标。
使用类似 DQN 的结构，并加入一个额外的 tau-嵌入 φ(tau)，它与状态特征进行乘法交互以产生 Z_tau(x,a)。
通过将 tau 通过 beta 映射（如 CPW、Wang、CVaR）并优化扭曲期望来引入风险敏感策略的扭曲风险度量。
探索控制每次更新 tau 样本数量的体系结构变体和超参数（N, N'），以在数据效率与学习速度之间取得平衡。

实验结果

研究问题

RQ1学习回报的完整分位函数是否相对于固定分位数方法如 QR-DQN 能提升分布式 RL 的表现？
RQ2隐式分位表示是否能够通过扭曲风险度量实现有效的风险敏感策略？
RQ3体系结构选择和采样参数（N、N'）如何影响数据效率与长期性能？
RQ4在像 Atari-57 这样的大规模基准上，IQN 与 Rainbow、QR-DQN 等最先进方法相比的表现如何？

主要发现

平均值	中位数	与人类的差距	种子数
228%	79%	0.334	1
434%	124%	0.178	1
701%	178%	0.152	1
1189%	230%	0.144	2
864%	193%	0.165	3
1019%	218%	0.141	5

IQN 显著优于 QR-DQN，在 Atari-57 上几乎达到 Rainbow 的水平，且未进行正交改进的组合。
IQN 实现了 1000% 以上的平均人类标准化分数和强势中位数表现，IQN 往往缩小与 Rainbow 的差距，尤其在难度较高的游戏。
改变 tau 样本数量 N 和 N' 的结果显示 N=8 与 N'=8 提供了强劲的长期性能，超过此值的边际收益递减。
风险厏保扭曲度量在某些游戏上可带来性能改进，而风险偏好度量在其他游戏上可能表现不佳，表明风险偏好具有细微影响。
在风险中性评估下的 IQN 仍可显著优于基线方法，而且该方法使 Atari-57 上距离 Rainbow 的剩余距离减半。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。