Skip to main content
QUICK REVIEW

[论文解读] For SALE: State-Action Representation Learning for Deep Reinforcement Learning

Scott Fujimoto, Wei-Di Chang|arXiv (Cornell University)|Jun 4, 2023
Reinforcement Learning in Robotics被引用 16
一句话总结

这篇论文提出 SALE,用于学习低层状态强化学习的状态-动作嵌入,将其与 TD3 集成成 TD7(包含检查点和离线支持),并在 MuJoCo 和 D4RL 基准测试上展示了在线和离线性能的显著提升。

ABSTRACT

In the field of reinforcement learning (RL), representation learning is a proven tool for complex image-based tasks, but is often overlooked for environments with low-level states, such as physical control problems. This paper introduces SALE, a novel approach for learning embeddings that model the nuanced interaction between state and action, enabling effective representation learning from low-level states. We extensively study the design space of these embeddings and highlight important design considerations. We integrate SALE and an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which significantly outperforms existing continuous control algorithms. On OpenAI gym benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over TD3 at 300k and 5M time steps, respectively, and works in both the online and offline settings.

研究动机与目标

  • 激发对低层状态强化学习的表征学习,超越基于图像的任务。
  • 提出 SALE,以联合学习状态和动作嵌入,从而预测潜在动态。
  • 评估在线和离线 RL 设置中的设计选择。
  • 证明将 SALE 与检查点以及先前的 TD3 改进相结合,可实现更优越的性能。

提出的方法

  • 使用编码器 f 和 g 学习状态和状态-动作嵌入:zs = f(s) 且 zsa = g(zs, a)。
  • 用动力学预测损失 L(f,g) 训练编码器,该损失在 zsa 与下一个状态嵌入 zs′ 之间最小化均方误差(停止梯度)。
  • 将嵌入与原始状态/动作输入拼接,以用于价值函数 Q 和策略 π:Q(zsa, zs, s, a) 和 π(zs, s)。
  • 将编码器训练与值/策略更新解耦;应用 AvgL1Norm 以稳定嵌入尺度。
  • 通过对 TD 目标进行截断(基于数据集的值范围)来降低外推误差。
  • 通过将 SALE 与 TD3、LAP(优先回放)、策略检查点,以及用于离线 RL 的行为克隆项相结合,引入 TD7。

实验结果

研究问题

  • RQ1状态-动作嵌入是否能够有效地从低层状态空间捕捉环境动力学?
  • RQ2在 SALE 中哪些设计选择最影响在线与离线 RL 的性能与稳定性?
  • RQ3使用高维状态-动作输入时,CHECKPOINTS 和裁剪是否能稳定训练?
  • RQ4在 MuJoCo 和 D4RL 基准测试中,TD7 与强大的在线/离线基线相比如何?

主要发现

  • TD7 在 OpenAI Gym MuJoCo 任务上显著优于现有的连续控制算法,在 300k 步时相对于 TD3 的平均提升为 276.7%,在 5M 步时为 50.7%。
  • SALE 嵌入提升下游的值函数和策略学习,当与解耦、稳定训练相结合时;端到端训练嵌入的性能不如解耦学习。
  • 使用策略检查点通过为评估和训练保留高性能策略来提高在线训练的稳定性和性能。
  • 在离线 RL 中,TD7 结合 SALE 在 MuJoCo 数据集(D4RL)上达到或超过最先进基线(如 CQL、TD3+BC、IQL、X-QL),显示出很强的离线性能。
  • 消融研究表明,状态-动作嵌入、AvgL1Norm 归一化以及解耦训练对最终性能的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。