QUICK REVIEW

[论文解读] Observational Learning by Reinforcement Learning

Diana Borsa, Bilal Piot|arXiv (Cornell University)|Jun 20, 2017

Reinforcement Learning in Robotics参考文献 22被引用 26

一句话总结

该论文表明，在深度强化学习（DeepRL）中，观察式学习——即智能体通过观察其他智能体的行为来改进自身策略——可以在不显式建模教师的情况下自然涌现。通过将A3C与记忆机制结合，智能体能够通过稀疏环境奖励信号，自发地模仿或向教师获取信息，即使在部分可观测环境下，其性能也能与观察专家行为的智能体相媲美，并可通过课程学习实现独立运行。

ABSTRACT

Observational learning is a type of learning that occurs as a function of observing, retaining and possibly replicating or imitating the behaviour of another agent. It is a core mechanism appearing in various instances of social learning and has been found to be employed in several intelligent species, including humans. In this paper, we investigate to what extent the explicit modelling of other agents is necessary to achieve observational learning through machine learning. Especially, we argue that observational learning can emerge from pure Reinforcement Learning (RL), potentially coupled with memory. Through simple scenarios, we demonstrate that an RL agent can leverage the information provided by the observations of an other agent performing a task in a shared environment. The other agent is only observed through the effect of its actions on the environment and never explicitly modeled. Two key aspects are borrowed from observational learning: i) the observer behaviour needs to change as a result of viewing a 'teacher' (another agent) and ii) the observer needs to be motivated somehow to engage in making use of the other agent's behaviour. The later is naturally modeled by RL, by correlating the learning agent's reward with the teacher agent's behaviour.

研究动机与目标

探究在不显式建模其他智能体的情况下，观察式学习是否能在深度强化学习智能体中自然涌现。
确定仅使用带记忆的纯强化学习是否足以使智能体在共享环境中通过观察教师行为进行学习。
探索仅靠强化学习的奖励信号是否足以激发复杂行为（如模仿或信息获取），而无需专家轨迹监督。
开发一种课程学习策略，使智能体在完成观察学习后能够最终独立运行。
评估当教师与学习者目标不一致或表现不佳时，此类观察式学习是否仍具鲁棒性。

提出的方法

学习智能体使用A3C算法，结合卷积神经网络进行感知，使用LSTM实现记忆，以处理共享环境中的观测信息。
学习智能体仅在完成任务时获得奖励，不会因模仿或与教师互动而获得奖励。
教师为一个专家智能体，其在环境中行动时并不知晓学习智能体的存在，通过环境效应提供行为示范。
观测信息通过感知头处理，以编码教师行为在空间和时间上的动态特征。
采用课程学习策略，随时间推移逐步提高教师存在被遮蔽的概率，迫使智能体减少对外部观察的依赖，转而依赖内部知识。
智能体的策略通过端到端的策略梯度优化进行训练，使用稀疏环境奖励信号作为监督信号。

实验结果

研究问题

RQ1在不显式建模教师或访问专家轨迹的情况下，观察式学习是否能在深度强化学习智能体中自然涌现？
RQ2感知、记忆与强化学习的结合是否足以产生基于观察的模仿或信息获取行为？
RQ3经过观察式学习训练的智能体是否能在无教师存在的新环境中实现泛化？
RQ4在部分可观测设置下，智能体的性能如何依赖于目标的可见性以及教师的存在？
RQ5课程学习策略是否能成功解除智能体对教师的依赖，同时保持任务性能？

主要发现

在目标可见的环境中，当教师存在时，智能体的性能与仅具有完全可观测性的独立智能体相当或略优，表明其能有效从教师行为中提取信息。
当目标被隐藏时，智能体仍显著优于盲目的静态策略，表明其学会了利用教师的轨迹推断目标位置。
智能体最终的策略始终主动寻找并跟随教师，展现出稳健的模仿与信息获取策略，而无需为此行为获得显式奖励。
经过课程训练（教师存在被逐步遮蔽），智能体在无教师的9宫格环境中成功完成任务，表明其已成功内化教师的行为。
智能体在训练后能泛化到新的、未见过的环境中，表明其观察行为并非局限于特定环境，而是具备可迁移性。
即使教师与学习者目标不一致（如朝相反方向移动），智能体仍能学会利用教师行为，表明其对目标不一致具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。