[论文解读] Implicit Quantile Networks for Distributional Reinforcement Learning
IQN 学习回报分布的完整分位函数,以实现分布式与风险敏感强化学习,在 Atari-57 上取得强劲结果并与 Rainbow 的性能相竞争。
In this work, we build on recent advances in distributional reinforcement learning to give a generally applicable, flexible, and state-of-the-art distributional variant of DQN. We achieve this by using quantile regression to approximate the full quantile function for the state-action return distribution. By reparameterizing a distribution over the sample space, this yields an implicitly defined return distribution and gives rise to a large class of risk-sensitive policies. We demonstrate improved performance on the 57 Atari 2600 games in the ALE, and use our algorithm's implicitly defined distributions to study the effects of risk-sensitive policies in Atari games.
研究动机与目标
- 将分布式 RL 作为对回报完整分布的建模(而不仅是其均值)来提出动机。
- 提出一个灵活的 IQN 方法,通过重参数化学习隐式分位函数。
- 通过允许对学习到的分布进行扭曲风险度量来实现风险敏感策略。
- 展示在 Atari-57 上的性能提升并探索鲁棒性与风险敏感行为。
提出的方法
- 通过对来自 U([0,1]) 的基本样本 tau 进行可微嵌入的重参数化,来对状态-动作分位函数 Z_tau(x,a) 进行建模。
- 使用 IQN 损失进行训练,该损失在 tau 的样本对上平均分位回归损失,最小化与 Wasserstein 一致的目标。
- 使用类似 DQN 的结构,并加入一个额外的 tau-嵌入 φ(tau),它与状态特征进行乘法交互以产生 Z_tau(x,a)。
- 通过将 tau 通过 beta 映射(如 CPW、Wang、CVaR)并优化扭曲期望来引入风险敏感策略的扭曲风险度量。
- 探索控制每次更新 tau 样本数量的体系结构变体和超参数(N, N'),以在数据效率与学习速度之间取得平衡。
实验结果
研究问题
- RQ1学习回报的完整分位函数是否相对于固定分位数方法如 QR-DQN 能提升分布式 RL 的表现?
- RQ2隐式分位表示是否能够通过扭曲风险度量实现有效的风险敏感策略?
- RQ3体系结构选择和采样参数(N、N')如何影响数据效率与长期性能?
- RQ4在像 Atari-57 这样的大规模基准上,IQN 与 Rainbow、QR-DQN 等最先进方法相比的表现如何?
主要发现
| 平均值 | 中位数 | 与人类的差距 | 种子数 |
|---|---|---|---|
| 228% | 79% | 0.334 | 1 |
| 434% | 124% | 0.178 | 1 |
| 701% | 178% | 0.152 | 1 |
| 1189% | 230% | 0.144 | 2 |
| 864% | 193% | 0.165 | 3 |
| 1019% | 218% | 0.141 | 5 |
- IQN 显著优于 QR-DQN,在 Atari-57 上几乎达到 Rainbow 的水平,且未进行正交改进的组合。
- IQN 实现了 1000% 以上的平均人类标准化分数和强势中位数表现,IQN 往往缩小与 Rainbow 的差距,尤其在难度较高的游戏。
- 改变 tau 样本数量 N 和 N' 的结果显示 N=8 与 N'=8 提供了强劲的长期性能,超过此值的边际收益递减。
- 风险厏保扭曲度量在某些游戏上可带来性能改进,而风险偏好度量在其他游戏上可能表现不佳,表明风险偏好具有细微影响。
- 在风险中性评估下的 IQN 仍可显著优于基线方法,而且该方法使 Atari-57 上距离 Rainbow 的剩余距离减半。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。