Skip to main content
QUICK REVIEW

[论文解读] Predictive Information Accelerates Learning in RL

Kuang-Huei Lee, Ian Fischer|arXiv (Cornell University)|Jul 24, 2020
Fuzzy Logic and Control Systems参考文献 40被引用 24
一句话总结

该论文提出PI-SAC,一种强化学习智能体,通过使用对比条件熵瓶颈目标学习过去与未来观测之间预测信息的压缩表示,从而在连续控制任务中提升样本效率。该方法在DM Control Suite上显著优于基线模型,尤其是在从原始像素训练时表现更优。

ABSTRACT

The Predictive Information is the mutual information between the past and the future, I(X_past; X_future). We hypothesize that capturing the predictive information is useful in RL, since the ability to model what will happen next is necessary for success on many tasks. To test our hypothesis, we train Soft Actor-Critic (SAC) agents from pixels with an auxiliary task that learns a compressed representation of the predictive information of the RL environment dynamics using a contrastive version of the Conditional Entropy Bottleneck (CEB) objective. We refer to these as Predictive Information SAC (PI-SAC) agents. We show that PI-SAC agents can substantially improve sample efficiency over challenging baselines on tasks from the DM Control suite of continuous control environments. We evaluate PI-SAC agents by comparing against uncompressed PI-SAC agents, other compressed and uncompressed agents, and SAC agents directly trained from pixels. Our implementation is given on GitHub.

研究动机与目标

  • 通过显式建模预测信息,提升从像素观测出发的深度强化学习的样本效率。
  • 探究压缩预测信息(过去与未来之间的互信息)是否能带来更好的表征学习与策略性能。
  • 评估在强化学习中,预测表征学习时压缩与非压缩的对比影响。
  • 评估压缩表征在未见任务上的泛化性能。
  • 证明预测信息学习可提升无模型强化学习的训练稳定性和最终性能。

提出的方法

  • 该方法使用条件熵瓶颈(CEB)目标的对比变体,学习过去观测的压缩表示,以最大化对未来观测的预测能力。
  • CEB目标最小化条件互信息 I(X;Z|Y),同时最大化 I(Y;Z),其中 X 为过去,Y 为未来,Z 为学习到的表征。
  • 使用变分近似处理真实后验 p(z|y),通过反向编码器 b(z|y) 实现可微训练。
  • 将预测表征作为输入馈入软演员评论家(SAC)智能体,构成PI-SAC框架。
  • 训练期间应用图像增强,以提升预测特征的对比学习效果。
  • 辅助预测目标与SAC策略和价值函数在端到端训练中联合优化。

实验结果

研究问题

  • RQ1学习预测信息的压缩表示是否能提升像素化强化学习的样本效率?
  • RQ2预测信息的压缩在连续控制任务中对未见任务的泛化能力有何影响?
  • RQ3性能提升是否特异地归因于预测信息建模,还是可归因于其他表征学习目标?
  • RQ4PI-SAC在样本效率和最终性能方面与最先进无模型及有模型基线相比如何?
  • RQ5包含预测信息学习是否能提升像素化强化学习的训练稳定性?

主要发现

  • PI-SAC在DM Control Suite的九项任务中,相比SAC、Dreamer和DrQ基线,显著提升了样本效率。
  • 压缩的PI-SAC智能体优于其未压缩的对应模型,证明压缩对性能提升至关重要。
  • 消融实验表明,性能增益主要源于预测信息建模与压缩,而非单纯的表征学习。
  • PI-SAC展现出更好的泛化能力,压缩表征在零样本迁移任务中表现优于未压缩表征。
  • 该方法提升了训练稳定性,并在不增加额外成本的情况下维持了最终性能,即使从原始像素训练也成立。
  • 图像增强提升了预测特征的对比学习效果,从而进一步提高了样本效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。