[论文解读] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
Q-Transformer 使用每维离散化和自回归 Transformer 基于 Q-learning,以扩展离线 RL 以适用于大型现实世界机器人多任务数据,优于现有的离线 RL 方法和模仿学习。
In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://qtransformer.github.io
研究动机与目标
- 从混合了人类演示与自动收集数据的大型离线机器人数据集中实现可扩展、具有高容量的策略学习的动机与能力。
- 开发一种基于 Transformer 的 Q 函数表示,能够处理每个维度的离散动作令牌。
- 引入适用于离线数据的定制化保守正则化,以缓解分布漂移和过估计。
- 通过蒙特卡洛回报和 n 步 TD 更新提高学习效率,以在真实任务上加速训练。
提出的方法
- 通过将每个动作维度单独离散化并使用 Transformer 将 Q-learning 模型化为自回归序列建模,从而将 Q 值表示为令牌。
- 对每个时间步内的每个动作区间应用逐维 Bellman 更新,将动作维度视为时间步以计算 Q 值。
- 引入定制化的保守 Q 学习目标,将分布外动作正则化向最小累积回报(在他们的设置中为 0)。
- 通过蒙特卡洛回报到-go 和 n-步回报来增强 TD 学习,以加速混合质量数据上的训练。
- 使用结合 MC 回报与 TD 备份的混合更新,以在大型 Transformer 模型上提高学习效率。
实验结果
研究问题
- RQ1Q-Transformer 能否从演示与次优离线数据的混合中学习出有效策略?
- RQ2在大规模真实世界机器人任务上,Q-Transformer 相较现有离线 RL 和模仿学习方法有何表现?
- RQ3设计选择(保守正则化、MC/n-步回报、逐维离散化)如何影响性能与稳定性?
- RQ4Q-Transformer 能否扩展到非常大的离线数据集和多任务现实机器人问题?
主要发现
| Task category | # of tasks | Q-Transformer (Q-T) | Decision Transformer (DT) | Implicit Q-learning (IQL) | RT-1 (Imitation) |
|---|---|---|---|---|---|
| drawer pick and place | 18 | 64% | 49% | 11% | 17% |
| open and close drawer | 7 | 33% | 11% | 11% | 0% |
| move object near target | 47 | 71% | 40% | 60% | 58% |
| Average/All Tasks | 72 | 56% | 33% | 27% | 25% |
- Q-Transformer 在真实世界的语言条件化机器人操作任务中实现了比先前方法更高的平均成功率(平均成功率 56% vs 33% DT 与 27% IQL 和 25% RT-1)。
- 在 72 个真实世界任务上,Q-Transformer 在包括抽屉操作和近目标放置等任务类别中超越了基线方法。
- 消融实验显示保守性与蒙特卡洛回报对性能至关重要;移除它们会降低或崩溃结果。
- 扩展实验表明即使数据集显著增大(约 300k 次试验),Q-Transformer 仍然优于模仿学习和 Decision Transformer。
- 逐维离散化结合自回归 Q 学习使离线环境中的有效 TD 学习成为可能,包括混合演示和自主数据的情况。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。