QUICK REVIEW

[论文解读] Imagination-Augmented Agents for Deep Reinforcement Learning

Théophane Weber, Sébastien Racanière|arXiv (Cornell University)|Jul 19, 2017

Reinforcement Learning in Robotics被引用 210

一句话总结

基于想象的智能体(I2As) 将基于模型无关的强化学习与来自已学习环境模型的想象未来相结合，提高数据效率和对模型不完美性的鲁棒性，在Sokoban和MiniPacman上取得了验证。

ABSTRACT

We introduce Imagination-Augmented Agents (I2As), a novel architecture for deep reinforcement learning combining model-free and model-based aspects. In contrast to most existing model-based reinforcement learning and planning methods, which prescribe how a model should be used to arrive at a policy, I2As learn to interpret predictions from a learned environment model to construct implicit plans in arbitrary ways, by using the predictions as additional context in deep policy networks. I2As show improved data efficiency, performance, and robustness to model misspecification compared to several baselines.

研究动机与目标

推动将无模型 RL 与基于模型的 RL 相结合，以提高数据效率和泛化能力。
开发一个可学习的想象机制，用以解释不完美的环境预测。
设计一个端到端结构，将基于模型的滚动与无模型策略融合。
评估对模型错配的鲁棒性，并与规划基线进行比较。

提出的方法

引入一个想象核(IC)，以滚动一个由滚动策略条件化的环境模型。
用滚动编码器对想象轨迹进行编码，然后聚合成想象代码 c_ia。
将 c_ia 与无模型路径的特征结合，产生最终的策略和值估计。
先对环境模型进行预训练，然后通过 A3C 对智能体进行端到端训练，并加入一个辅助损失，将具想象感知的策略蒸馏到滚动策略。
实验使用不同长度的滚动（展开步骤）以评估信息增益和计算效率。
将 I2A 与基线（标准的模型无关、复制模型）进行比较，并在不完美模型下分析性能。

实验结果

研究问题

RQ1将来自学习环境模型的想象轨迹整合进来是否能在数据效率和性能上优于无模型基线？
RQ2I2A 是否能够在不因模型误差累积而降低性能的情况下稳健地利用不完美的环境模型？
RQ3想象深度（滚动长度）如何影响学习速度和最终性能？
RQ4就性能与所需的模型查询次数而言，I2A 与计划方法（例如 MCTS）相比如何？
RQ5I2A 架构在跨任务和环境中的泛化程度如何？

主要发现

盒子	I2A (%)	Standard (%)
1	99.5	97
2	97	87
3	92	72
4	87	60
5	77	47
6	66	32
7	53	23

I2A 在 Sokoban 上优于标准模型无关代理，解决了最多 85% 的关卡，而基线不到 60%。
随着容量增加，标准基线达到约 70% 的关卡，仍低于 I2A。
更长的想象（滚动）长度提升性能，5 步滚动在 Sokoban 中解决的关卡超过 90%。
即使环境模型不完美或嘈杂，I2A 仍然有效，在模型错配下优于无编码器的 Monte Carlo 基线。
I2A 显示出数据效率，在考虑环境模型预训练时大约在 3e8 帧后解决关卡（预训练少于 1e8 帧）。
在 MiniPacman 中，单一共享环境模型使 I2A 在稀疏奖励的任务中优于标准和复制模型基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。