Skip to main content
QUICK REVIEW

[论文解读] Online Decision Transformer

Qinqing Zheng, Amy Zhang|arXiv (Cornell University)|Feb 11, 2022
Reinforcement Learning in Robotics被引用 21
一句话总结

在线决策变换器(ODT)通过使用最大熵序列建模目标和事后回报重标签,将离线预训练与在线微调相结合,在 D4RL 上实现了具有竞争力的绝对性能,并在微调阶段取得显著提升。

ABSTRACT

Recent work has shown that offline reinforcement learning (RL) can be formulated as a sequence modeling problem (Chen et al., 2021; Janner et al., 2021) and solved via approaches similar to large-scale language modeling. However, any practical instantiation of RL also involves an online component, where policies pretrained on passive offline datasets are finetuned via taskspecific interactions with the environment. We propose Online Decision Transformers (ODT), an RL algorithm based on sequence modeling that blends offline pretraining with online finetuning in a unified framework. Our framework uses sequence-level entropy regularizers in conjunction with autoregressive modeling objectives for sample-efficient exploration and finetuning. Empirically, we show that ODT is competitive with the state-of-the-art in absolute performance on the D4RL benchmark but shows much more significant gains during the finetuning procedure.

研究动机与目标

  • 通过将离线数据预训练与在线环境微调相结合,推动并实现样本高效的强化学习。
  • 将 Decision Transformer 框架扩展到适合探索的随机策略。
  • 引入熵正则化的、轨迹级别的探索以及与在线学习兼容的重放缓冲区。
  • 结合事后回报重标签,以使在线滚行动用于对齐期望的回报标记。

提出的方法

  • 将策略建模为一个随机返回条件的 transformer(ODT),它在给定过去 K 个时间步的状态、RTG 和动作的情况下预测动作。
  • 使用一个最大熵目标,通过轨迹级熵项对负对数似然进行正则化,使用带 lambda 参数的对偶公式求解。
  • 使用一个以轨迹为中心的重放缓冲区进行训练,该缓冲区存储完整轨迹并通过事后回报重标签来更好地匹配观测到的回报。
  • 采用返回条件训练,初始在线 RTG 标记,并使用在线滚行动来填充重放缓冲区。
  • 使用事后回报重标签,用滚动结束时的实际回报替换 RTG 标记,在稀疏和密集奖励设置下提高样本效率。
  • 解释收敛直觉,即目标从对离线数据的交叉熵转向在在线数据占主导时的标准 NLL。

实验结果

研究问题

  • RQ1离线预训练通过 Decision Transformer 能否有效扩展到带探索的在线微调?
  • RQ2轨迹级熵正则化是否在在线微调阶段改善探索和样本效率?
  • RQ3事后回报重标签如何与返回条件策略相互作用以改善在线学习?
  • RQ4在 D4RL 基准上,ODT 相对于现有的离线和在线 RL 基线表现如何?
  • RQ5哪些消融实验揭示了实现从离线到在线 RL 的关键组成部分?

主要发现

  • ODT 在 D4RL 基准上的绝对性能方面与最先进方法具有竞争力。
  • ODT 在微调/在线阶段相比离线基线显示出显著的更大增益。
  • 带熵正则化的训练和轨迹级探索使返回条件策略的在线微调成为可能。
  • 事后回报重标签提高了在线滚行动的数据效率,无论在稀疏还是密集奖励环境。
  • ODT 的优势来自其将离线预训练与在线探索端到端整合,而无需对在线阶段进行大量超参数调优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。