QUICK REVIEW

[论文解读] Beating Atari with Natural Language Guided Reinforcement Learning

Russell Kaplan, Christopher Sauer|arXiv (Cornell University)|Apr 18, 2017

Reinforcement Learning in Robotics参考文献 10被引用 34

一句话总结

本文提出了一种深度强化学习智能体，通过将自然语言指令作为额外监督信号，学习击败Atari游戏。通过训练游戏画面与文本之间的多模态嵌入，智能体能够通过一系列英文指令自我监控进度，完成指令后获得额外奖励——在《蒙特祖马的复仇》中取得3500分的高分，超越DQN、A3C以及表现最佳的OpenAI Gym智能体。

ABSTRACT

We introduce the first deep reinforcement learning agent that learns to beat Atari games with the aid of natural language instructions. The agent uses a multimodal embedding between environment observations and natural language to self-monitor progress through a list of English instructions, granting itself reward for completing instructions in addition to increasing the game score. Our agent significantly outperforms Deep Q-Networks (DQNs), Asynchronous Advantage Actor-Critic (A3C) agents, and the best agents posted to OpenAI Gym on what is often considered the hardest Atari 2600 environment: Montezuma's Revenge.

研究动机与目标

使强化学习智能体能够在像Atari游戏这样的状态化环境中，从高层级的自然语言指令中学习。
解决《蒙特祖马的复仇》等环境中稀疏奖励的问题，这些环境中传统智能体难以学习。
开发一种自我监控机制，使智能体能够追踪一系列自然语言指令的完成进度。
证明语言引导的奖励塑造可提升复杂、稀疏奖励环境中样本效率与最终性能。
探索利用视觉与语言之间的多模态嵌入，实现人工智能体类人指令遵循的可行性。

提出的方法

智能体使用多模态嵌入模型，将视觉观测（游戏画面）与自然语言指令对齐，学习共享向量空间。
通过计算画面嵌入与指令嵌入之间的余弦相似度（点积）来检测指令完成情况；正值表示已完成。
检测到完成时，智能体获得额外内在奖励，并进入指令列表中的下一条指令。
智能体的策略网络通过强化学习进行训练，同时结合游戏得分与基于语言的完成奖励作为联合监督信号。
多模态嵌入在由游戏动态和人工描述生成的合成帧-指令配对数据集上进行预训练。
该方法将语言监督整合到标准强化学习循环中，增强了稀疏奖励环境下的探索与信用分配能力。

实验结果

研究问题

RQ1深度强化学习智能体是否能仅通过自然语言指令作为额外引导，学习击败Atari游戏？
RQ2在《蒙特祖马的复仇》等稀疏奖励环境中，语言引导的奖励塑造是否能提升学习效率与最终性能？
RQ3智能体能否泛化到多模态嵌入训练数据中未出现过的游戏状态？
RQ4在样本效率与最终性能方面，语言引导学习与内在好奇心或其他辅助奖励方法相比如何？
RQ5语言监督在多大程度上能使智能体学习复杂、分层的任务，而无需完整环境规格说明？

主要发现

在6000万次训练帧后，该智能体在《蒙特祖马的复仇》中取得3500分的最终得分，显著超越最佳OpenAI Gym智能体（2500分）与标准A3C（0分）。
在1000万次帧后，智能体得分为500分，而DQN为0.0分，A3C为0.1分，表明其在以往难以解决的环境中具备强大学习能力。
智能体在未见过的新游戏状态中成功完成自然语言指令，表明其泛化能力超越了对训练样本的记忆。
多模态嵌入通过点积相似度可靠检测指令完成情况，构成了自我监控机制的基础。
智能体性能甚至超过基于内在动机的智能体报告的最高分6600分（尽管训练帧数更少，1亿 vs. 6000万）。
该方法提供了一种可扩展、人类可解释的监督形式，相较于低层次奖励塑造或程序化奖励，更具自然性与泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。