QUICK REVIEW

[论文解读] Deep Transfer in Reinforcement Learning by Language Grounding.

Karthik Narasimhan, Regina Barzilay|arXiv (Cornell University)|Aug 1, 2017

Topic Modeling被引用 13

一句话总结

本文提出了一种新颖的深度迁移强化学习框架，通过利用自然语言描述，实现跨环境的有效策略迁移。通过可微分规划模块将文本描述与环境动态（如状态转移和奖励）对齐，并结合因子化状态表征，该模型在迁移和多任务学习场景中，平均奖励最高提升14%，初始奖励最高提升11.5%，优于先前方法。

ABSTRACT

In this paper, we explore the utilization of natural language to drive transfer for reinforcement learning (RL). Despite the wide-spread application of deep RL techniques, learning generalized policy representations that work across domains remains a challenging problem. We demonstrate that textual descriptions of environments provide a compact intermediate channel to facilitate effective policy transfer. Specifically, by learning to ground the meaning of text to the dynamics of the environment such as transitions and rewards, an autonomous agent can effectively bootstrap policy learning on a new domain given its description. We employ a model-based RL approach consisting of a differentiable planning module, a model-free component and a factorized state representation to effectively use entity descriptions. Our model outperforms prior work on both transfer and multi-task scenarios in a variety of different environments. For instance, we achieve up to 14% and 11.5% absolute improvement over previously existing models in terms of average and initial rewards, respectively.

研究动机与目标

为解决在不同强化学习领域中学习可泛化的策略表征的挑战。
探究自然语言描述是否可作为在不同环境间迁移策略的有效中间通道。
通过利用文本环境描述，提升零样本和少样本迁移学习中的样本效率与性能。
开发一种结合语言对齐与端到端模型自由及模型基础组件的基于模型的强化学习框架，以提升泛化能力。

提出的方法

该框架采用可微分规划模块，将环境的文本描述映射为学习到的动态特性，包括状态转移和奖励。
采用因子化状态表征，将实体级信息与环境动态解耦，从而提升在不同领域间的泛化能力。
模型结合了用于策略优化的模型自由强化学习组件，以及利用对齐语言进行环境交互模拟的模型基础规划器。
通过可微分架构将文本描述嵌入并对其齐环境动态，实现语言-策略对齐的梯度优化。
系统端到端训练，从语言输入预测奖励和转移，实现仅凭文本描述即可在新环境中实现零样本策略迁移。
该方法利用实体级描述提升泛化能力，尤其在具有相似语义结构的未见环境中表现更优。

实验结果

研究问题

RQ1自然语言描述能否作为有效中间信号，实现强化学习中的策略迁移？
RQ2语言对齐如何提升零样本和少样本迁移学习中的样本效率与性能？
RQ3将可微分规划模块与语言输入结合，能在多大程度上提升策略在不同环境间的泛化能力？
RQ4与端到端表征相比，因子化状态表征在提升迁移性能方面有何贡献？

主要发现

所提方法在迁移学习场景中，平均回报相比先前最先进模型最高提升14%的绝对值。
模型在初始任务性能上提升11.5%的绝对值，表明具备强大的零样本迁移能力。
语言对齐的策略迁移显著提升样本效率，使模型在新环境中更快收敛。
将可微分规划模块与语言输入结合，相比无语言监督的模型，能生成更鲁棒、更具泛化能力的策略。
因子化状态表征通过将实体级语义与环境动态解耦，提升了迁移性能。
该模型在多样化环境中均优于现有方法，展现出在迁移学习和多任务强化学习设置下强大的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。