QUICK REVIEW

[论文解读] Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions

Juergen Schmidhuber|arXiv (Cornell University)|Dec 5, 2019

Reinforcement Learning in Robotics被引用 23

一句话总结

本文提出了一种新型方法——倒置强化学习（UDRL），通过直接利用过去经验中的监督学习，将期望奖励和时间跨度映射到动作，从而绕过奖励预测。通过训练一个可微控制器（如RNN）来泛化自生成的命令输入（例如'在Y时间内获得X奖励'），UDRL在复杂强化学习任务中表现优于传统方法，即使仅采用初步实现版本亦然。

ABSTRACT

We transform reinforcement learning (RL) into a form of supervised learning (SL) by turning traditional RL on its head, calling this Upside Down RL (UDRL). Standard RL predicts rewards, while UDRL instead uses rewards as task-defining inputs, together with representations of time horizons and other computable functions of historic and desired future data. UDRL learns to interpret these input observations as commands, mapping them to actions (or action probabilities) through SL on past (possibly accidental) experience. UDRL generalizes to achieve high rewards or other goals, through input commands such as: get lots of reward within at most so much time! A separate paper [63] on first experiments with UDRL shows that even a pilot version of UDRL can outperform traditional baseline algorithms on certain challenging RL problems. We also also conceptually simplify an approach [60] for teaching a robot to imitate humans. First videotape humans imitating the robot's current behaviors, then let the robot learn through SL to map the videos (as input commands) to these behaviors, then let it generalize and imitate videos of humans executing previously unknown behavior. This Imitate-Imitator concept may actually explain why biological evolution has resulted in parents who imitate the babbling of their babies.

研究动机与目标

为解决传统强化学习的局限性，后者依赖于对未来奖励的预测，并通过复杂优化将奖励转化为动作。
通过将每次新经验转化为即时策略改进的监督命令，实现终身持续学习。
通过消除奖励预测网络和价值函数估计的需求，简化强化学习。
通过训练单一策略网络来理解源自过去经验的多样化命令输入，实现对新任务的泛化。
探索通过递归的'模仿-模仿者'框架实现模仿学习的可行性，其中智能体从视频演示中学习模仿人类行为。

提出的方法

UDRL将期望的累计奖励和时间跨度作为输入命令，输入至可微控制器（如RNN），该控制器将这些命令映射为动作概率。
利用梯度下降法，在单次终身试验中回溯生成的命令-动作对上训练控制器，其中命令源自所有过去的时间区间（time1 < time2）。
通过学习给定命令输入的条件动作分布实现泛化，从而可外推至新的、未见过的目标，如'在更短时间内获得更高奖励'。
利用深度网络的泛化能力，将成功行为压缩为紧凑的策略网络，而无需显式命令输入。
该框架支持确定性和概率性环境，并通过带有初始命令记忆的RNN扩展至部分可观察设置。
可与监督预训练集成，并可结合经验回放和相关序列选择性训练等技术，以降低计算成本。

实验结果

研究问题

RQ1强化学习能否被重新定义为绕过奖励预测，转而直接将期望奖励映射到动作？
RQ2单次终身试验是否能提供足够经验，通过命令输入的监督学习训练出通用策略网络？
RQ3深度网络的泛化能力如何使策略能够解决训练期间未明确见过的新任务？
RQ4模仿-模仿者框架能否解释生物机制（如父母模仿婴儿咿呀学语）？
RQ5与传统的基于价值或策略梯度的方法相比，使用回溯命令生成在计算和统计上的权衡是什么？

主要发现

UDRL的初步版本在某些具有挑战性的强化学习问题上优于传统强化学习基线方法，如另一篇实验论文[63]所展示。
该方法实现了持续在线学习，其中每个新观测均可立即通过监督微调来改进策略。
UDRL通过解释新颖的命令输入（如'在更短时间内获得更高奖励'）有效泛化至新任务，即使此类命令在训练期间未被明确见过。
该方法通过训练RNN将视觉输入映射到对应动作，成功从视频演示中学习模仿人类行为，使机器人能够泛化至此前未见过的行为。
通过直接学习从命令到动作的映射，该框架避免了传统强化学习中常见的奖励预测误差和价值函数近似偏差问题。
实验表明，即使经验有限，该方法仍能学习复杂行为，并通过基于命令的泛化改进探索策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。