QUICK REVIEW

[论文解读] Decision Transformer: Reinforcement Learning via Sequence Modeling

Lili Chen, Kevin Lü|arXiv (Cornell University)|Jun 2, 2021

Reinforcement Learning in Robotics参考文献 66被引用 464

一句话总结

本研究将强化学习重新表述为自回归序列建模，使用类似 GPT 的 transformer，对返回、状态和动作进行条件化，以生成最优动作，而无需传统的值备份。它在 Atari、OpenAI Gym 和 Key-to-Door 基准测试上实现了具有竞争力或更优的离线 RL 性能。

ABSTRACT

We introduce a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.

研究动机与目标

动机：将 RL 重写为一个序列建模问题，以利用 Transformer 架构。
展示一个因果自回归模型，基于返回值进行条件化，能够生成有效的动作。
证明这种方法在多个基准上可以匹配或超越最先进的离线 RL 基线。
探讨更长的上下文和事后回报信息如何影响学习与信用分配。

提出的方法

将轨迹表示为返回去往、状态和动作的序列：(R1, s1, a1, R2, s2, a2, ..., RK, sK, aK)。
使用带因果掩码的 GPT 风格 transformer，基于过去的 token 自回归地预测动作。
使用可学习的线性层对每种模态进行嵌入，并添加可学习的情节位置编码。
在离线数据集上以简单的监督目标训练，以预测下一个动作。
在测试时，基于期望的返回和环境起始状态进行条件化，以顺序生成动作。

实验结果

研究问题

RQ1在离线 RL 数据上训练的 Transformer 能否通过对返回和历史进行条件化来生成最优动作？
RQ2上下文长度（K）如何影响 Decision Transformer 的性能与信用分配？
RQ3Decision Transformer 与在 Atari 和 OpenAI Gym 任务上的无模型离线 RL 基线及模仿学习相比如何？
RQ4在稀疏或延迟奖励设置下模型是否仍然有效，是否可以作为一个良好的评估者？

主要发现

游戏	DT（本实验）	CQL	QR-DQN	REM	BC
Breakout	267.5 ± 97.5	211.1	17.1	8.9	138.9 ± 61.7
Qbert	15.4 ± 11.4	104.2	0.0	0.0	17.3 ± 14.7
Pong	106.1 ± 8.1	111.9	18.0	0.5	85.2 ± 20.0
Seaquest	2.5 ± 0.4	1.7	0.4	0.7	2.1 ± 0.3

Decision Transformer 在 Atari、OpenAI Gym 和 Key-to-Door 任务上与最先进的无模型离线 RL 基线相匹配或超越。
在 Atari 上，DT 在 4 场游戏中与 CQL 的竞争力达成于 3 场，并在若干情况下优于 REM、QR-DQN 和 BC。
DT 在大多数 OpenAI Gym 任务上取得高分，且经常超过基线，包括在稀疏奖励设置下。
更长的上下文（K>1）相比 K=1 显著提升了性能，表明过去轨迹在策略生成中的价值。
DT 在 Key-to-Door 任务中展示了强大的长时程信用分配能力，并在延迟奖励下表现稳健。
DT 可以建模回报的分布；在目标回报条件下，生成的轨迹与期望回报对齐，在某些情况下可以外推。
%BC 分析表明 Decision Transformer 利用整个数据集分布，而不仅仅是模仿最佳轨迹。）

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。