Skip to main content
QUICK REVIEW

[论文解读] Implicit Quantile Networks for Distributional Reinforcement Learning

Will Dabney, Georg Ostrovski|arXiv (Cornell University)|Jun 14, 2018
Reinforcement Learning in Robotics参考文献 46被引用 197
一句话总结

IQN 学习回报分布的完整分位函数,以实现分布式与风险敏感强化学习,在 Atari-57 上取得强劲结果并与 Rainbow 的性能相竞争。

ABSTRACT

In this work, we build on recent advances in distributional reinforcement learning to give a generally applicable, flexible, and state-of-the-art distributional variant of DQN. We achieve this by using quantile regression to approximate the full quantile function for the state-action return distribution. By reparameterizing a distribution over the sample space, this yields an implicitly defined return distribution and gives rise to a large class of risk-sensitive policies. We demonstrate improved performance on the 57 Atari 2600 games in the ALE, and use our algorithm's implicitly defined distributions to study the effects of risk-sensitive policies in Atari games.

研究动机与目标

  • 将分布式 RL 作为对回报完整分布的建模(而不仅是其均值)来提出动机。
  • 提出一个灵活的 IQN 方法,通过重参数化学习隐式分位函数。
  • 通过允许对学习到的分布进行扭曲风险度量来实现风险敏感策略。
  • 展示在 Atari-57 上的性能提升并探索鲁棒性与风险敏感行为。

提出的方法

  • 通过对来自 U([0,1]) 的基本样本 tau 进行可微嵌入的重参数化,来对状态-动作分位函数 Z_tau(x,a) 进行建模。
  • 使用 IQN 损失进行训练,该损失在 tau 的样本对上平均分位回归损失,最小化与 Wasserstein 一致的目标。
  • 使用类似 DQN 的结构,并加入一个额外的 tau-嵌入 φ(tau),它与状态特征进行乘法交互以产生 Z_tau(x,a)。
  • 通过将 tau 通过 beta 映射(如 CPW、Wang、CVaR)并优化扭曲期望来引入风险敏感策略的扭曲风险度量。
  • 探索控制每次更新 tau 样本数量的体系结构变体和超参数(N, N'),以在数据效率与学习速度之间取得平衡。

实验结果

研究问题

  • RQ1学习回报的完整分位函数是否相对于固定分位数方法如 QR-DQN 能提升分布式 RL 的表现?
  • RQ2隐式分位表示是否能够通过扭曲风险度量实现有效的风险敏感策略?
  • RQ3体系结构选择和采样参数(N、N')如何影响数据效率与长期性能?
  • RQ4在像 Atari-57 这样的大规模基准上,IQN 与 Rainbow、QR-DQN 等最先进方法相比的表现如何?

主要发现

平均值中位数与人类的差距种子数
228%79%0.3341
434%124%0.1781
701%178%0.1521
1189%230%0.1442
864%193%0.1653
1019%218%0.1415
  • IQN 显著优于 QR-DQN,在 Atari-57 上几乎达到 Rainbow 的水平,且未进行正交改进的组合。
  • IQN 实现了 1000% 以上的平均人类标准化分数和强势中位数表现,IQN 往往缩小与 Rainbow 的差距,尤其在难度较高的游戏。
  • 改变 tau 样本数量 N 和 N' 的结果显示 N=8 与 N'=8 提供了强劲的长期性能,超过此值的边际收益递减。
  • 风险厏保扭曲度量在某些游戏上可带来性能改进,而风险偏好度量在其他游戏上可能表现不佳,表明风险偏好具有细微影响。
  • 在风险中性评估下的 IQN 仍可显著优于基线方法,而且该方法使 Atari-57 上距离 Rainbow 的剩余距离减半。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。