QUICK REVIEW

[论文解读] Combating Reinforcement Learning's Sisyphean Curse with Intrinsic Fear

Zachary C. Lipton, Azizzadenesheli, Kamyar|arXiv (Cornell University)|Nov 3, 2016

Reinforcement Learning in Robotics参考文献 25被引用 49

一句话总结

本文提出内在恐惧（Intrinsic Fear, IF），一种奖励塑形方法，通过训练一个恐惧模型来预测从任一状态起在 $k_r$ 步内达到灾难性状态的概率，随后基于该得分对Q-learning进行惩罚，以防止深度强化学习（DRL）智能体因灾难性遗忘而反复返回危险状态。该方法提升了样本效率，并在雅达利游戏和玩具环境中稳健地避免灾难，且无需大量先验知识。

ABSTRACT

Many practical environments contain catastrophic states that an optimal agent would visit infrequently or never. Even on toy problems, Deep Reinforcement Learning (DRL) agents tend to periodically revisit these states upon forgetting their existence under a new policy. We introduce intrinsic fear (IF), a learned reward shaping that guards DRL agents against periodic catastrophes. IF agents possess a fear model trained to predict the probability of imminent catastrophe. This score is then used to penalize the Q-learning objective. Our theoretical analysis bounds the reduction in average return due to learning on the perturbed objective. We also prove robustness to classification errors. As a bonus, IF models tend to learn faster, owing to reward shaping. Experiments demonstrate that intrinsic-fear DQNs solve otherwise pathological environments and improve on several Atari games.

研究动机与目标

为解决深度强化学习智能体因灾难性遗忘而反复返回灾难性状态的问题。
开发一种仅需最少先验知识（具体而言，识别过去灾难的能力）的方法，而无需完整的环境建模。
通过塑造内在奖励以惩罚高风险轨迹，提升学习效率与安全性。
从理论上证明该方法对危险模型误差及有界奖励扰动的鲁棒性。
证明内在恐惧可使DQN智能体解决病态环境，并在雅达利游戏中超越标准DQN的性能。

提出的方法

训练一个监督式恐惧模型，以预测从任一给定状态起在 $k_r$ 步内达到灾难性状态的概率。
将恐惧模型的输出作为Q-learning目标中的学习型内在惩罚项，通过恐惧因子缩放，以抑制高风险动作。
维护独立的安全状态与危险状态缓冲区，防止恐惧模型发生灾难性遗忘，确保其始终不会丧失对危险状态的认知。
将恐惧得分整合进Q-learning的目标更新中，修改回报估计以包含惩罚项。
使用具有优先采样的经验回放，但确保危险状态在记忆中被保留，以维持恐惧模型的准确性。
该方法不修改主策略网络，仅依赖于一个独立且持续训练的恐惧模型进行奖励塑形。

实验结果

研究问题

RQ1学习型内在奖励塑形机制是否能防止DRL智能体因灾难性遗忘而反复返回已知的灾难性状态？
RQ2所提出的内在恐惧方法在罕见但严重故障的环境中，对学习效率和最终性能有何影响？
RQ3当危险状态分类模型出现错误，特别是将安全状态误标为危险状态时，该方法是否仍具有鲁棒性？
RQ4内在恐惧在标准雅达利环境中的性能提升程度如何，特别是在高成本失败模式的环境中？
RQ5使用内在恐惧是否显著减少了训练和评估过程中灾难性事件的发生次数？

主要发现

在Adventure Seeker玩具环境中，标准DQN尽管被训练为避免灾难性状态，但仍会反复返回；而IF智能体则永久学会了规避这些状态。
在Cart-Pole环境中，IF智能体通过学习停留在安全策略区域，成功避免了跌倒，即使标准DQN策略会漂移回失败模式。
在Seaquest中，IF智能体获得了更高的平均奖励，并减少了生命损失，相较于标准DQN表现更优。
在Asteroids中，IF智能体实现了更高的累积奖励，并显著减少了游戏结束状态，展现出更优的安全性与性能。
在Freeway中，改进最为显著：IF智能体比标准DQN更一致地避免了最常见的失败模式（横穿马路）。
理论分析表明，在有界奖励和低危险状态访问频率的条件下，扰动后的目标函数所导出的策略，其期望回报与原始目标函数下的最优策略近似相等。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。