QUICK REVIEW

[论文解读] Loss is its own Reward: Self-Supervision for Reinforcement Learning

Evan Shelhamer, Parsa Mahmoudieh|arXiv (Cornell University)|Dec 21, 2016

Reinforcement Learning in Robotics参考文献 24被引用 91

一句话总结

本文提出使用自监督辅助损失（如预测状态动态、逆动态和后继状态）来提升深度强化学习中的表征学习。通过利用所有过渡数据，即使在没有外部奖励的情况下，该方法显著提升了数据效率和策略性能，在自监督预训练下实现1.4倍更快的收敛速度，达到最佳Atari回报的95%。

ABSTRACT

Reinforcement learning optimizes policies for expected cumulative reward. Need the supervision be so narrow? Reward is delayed and sparse for many tasks, making it a difficult and impoverished signal for end-to-end optimization. To augment reward, we consider a range of self-supervised tasks that incorporate states, actions, and successors to provide auxiliary losses. These losses offer ubiquitous and instantaneous supervision for representation learning even in the absence of reward. While current results show that learning from reward alone is feasible, pure reinforcement learning methods are constrained by computational and data efficiency issues that can be remedied by auxiliary losses. Self-supervised pre-training and joint optimization improve the data efficiency and policy returns of end-to-end reinforcement learning.

研究动机与目标

解决端到端强化学习中的数据效率和表征学习瓶颈问题。
通过利用环境过渡中的普遍且即时的监督信号，改进策略优化。
实现从学习到的表征中快速恢复策略，证明表征是关键瓶颈。
开发不依赖特权信息或任务特定标注的自监督任务。
比较自监督预训练与联合优化对策略性能的影响。

提出的方法

引入基于状态、动作、奖励和后继过渡的判别式自监督任务：前向动态、逆动态和后继表征预测。
为强化学习和自监督任务使用共享的表征主干网络，支持多任务学习。
采用自监督预训练初始化策略网络，随后与强化学习损失联合优化。
采用残差网络架构，强化学习与辅助任务间共享特征编码器。
使用标准策略梯度方法（如A3C），在训练过程中引入自监督损失的辅助梯度。
设计辅助损失为判别式而非生成式，避免生成建模的需求。

实验结果

研究问题

RQ1自监督辅助损失能否提升深度强化学习中的数据效率和策略回报？
RQ2与从零开始的端到端训练相比，自监督任务上的预训练在多大程度上加速了策略学习？
RQ3与仅预训练相比，自监督目标与强化学习目标的联合优化如何影响策略性能？
RQ4能否快速微调一个去头代理（移除策略和价值头）？这表明所学表征的质量如何？
RQ5源自环境原始信号的自监督损失是否能超越仅依赖奖励的表征学习？

主要发现

自监督预训练使智能体在Atari游戏中平均以1.4倍更快的收敛速度达到最佳回报的95%。
从去头代理中恢复策略的速度显著快于从头开始训练，表明表征学习是主要瓶颈。
自监督与强化学习目标的联合优化进一步提升了数据效率，优于仅预训练。
即使在稀疏或延迟奖励环境下，该方法通过利用所有过渡进行监督，仍能提升策略性能。
如前向和逆动态预测等自监督损失为表征学习提供了有效的归纳偏置。
该方法在不同环境中具有泛化能力，且无需特权信息或任务特定标注。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。