[论文解读] Multi-Game Decision Transformers
一个离线训练的单一基于 transformer 的模型能够在多达 46 个 Atari 游戏中达到接近人类的表现,并随着模型规模扩大而提升,同时通过微调对新游戏进行快速适应。专家行动推断和离线训练优于若干基线。
A longstanding goal of the field of AI is a method for learning a highly capable, generalist agent from diverse experience. In the subfields of vision and language, this was largely achieved by scaling up transformer-based models and training them on large, diverse datasets. Motivated by this progress, we investigate whether the same strategy can be used to produce generalist reinforcement learning agents. Specifically, we show that a single transformer-based model - with a single set of weights - trained purely offline can play a suite of up to 46 Atari games simultaneously at close-to-human performance. When trained and evaluated appropriately, we find that the same trends observed in language and vision hold, including scaling of performance with model size and rapid adaptation to new games via fine-tuning. We compare several approaches in this multi-game setting, such as online and offline RL methods and behavioral cloning, and find that our Multi-Game Decision Transformer models offer the best scalability and performance. We release the pre-trained models and code to encourage further research in this direction.
研究动机与目标
- 研究是否可以用一个权重集合的单一模型在多样化的 Atari 环境中使用离线数据执行任务。
- 在多环境设置中,随着模型规模增加,研究性能的扩展趋势。
- 评估对新游戏的快速迁移/微调,并与在线/离线基线进行比较。
- 提出并评估专家行动推断,以在推理阶段生成高质量动作。
- 发布预训练模型和代码,以促进对通用化 RL 代理的研究。
提出的方法
- 将强化学习表述为离线序列建模,使用解码器风格的 transformer 来预测由观测、回报、动作和奖励组成序列的下一个标记。
- 将动作、奖励和回报分解为离散标记;使用图像分块来表示观测,并添加可训练的位置编码。
- 在离线的 Atari 轨迹上训练一个单一的 Multi-Game Decision Transformer(41 个游戏,4.1B 步,约 160B 标记),包含专家和非专家行为。
- 在推理时通过二元专家分类器实现专家行动推断,并用类贝叶斯的高回报目标采样来引导动作选择。
- 比较多种基线(BC、C51 DQN、CQL offline TD、CPC、BERT、ACL)及消融实验,以评估多游戏平台的性能和迁移。
- 评估跨模型规模的扩展效应(例如 DT-10M、DT-40M、DT-200M),并评估对新游戏的微调。
实验结果
研究问题
- RQ1一个具有共享权重的单一 transformer 是否能够在离线数据下学习在多种多样的 Atari 游戏中行动?
- RQ2在 transformer 的多游戏强化学习中,语言/视觉领域观察到的扩展规律是否成立?
- RQ3在多环境设置中,离线决策 transformer 与在线 RL 及其他离线基线相比如何?
- RQ4是否可以通过微调实现对新游戏的快速迁移,预训练如何影响迁移性能?
- RQ5用专家级推断引导动作生成是否比标准行为克隆提升性能?
主要发现
- 一个单一的离线训练 transformer 在所有 41 个训练游戏中的人类水平平均表现达到 126%。
- 随着训练游戏中的模型规模增加,性能提升,规模更大的模型训练更快并获得更高的游戏内分数。
- Multi-Game DT 通常优于非 transformer 的离线方法和在线多游戏基线,尽管单一游戏的专家模型仍然最强。
- 在 41 个游戏上对 DT 进行预训练并在未持有的游戏上微调能获得最佳迁移,超过 CQL 及像 CPC/BERT/ACL 的表示学习基线。
- 专家行动推断(最优性条件采样)在大多数游戏中显著优于标准行为克隆的 DT。
- 在专家和非专家数据混合下训练的 DT 优于仅用专家数据训练的 DT,且用全数据训练的 DT 优于用专家数据训练的 BC。
- 基于 DT 的方法在若干游戏中表现出超过最佳示范的顶层滚动表现,表明学习超越提供的示范。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。