QUICK REVIEW

[论文解读] Self-Correcting Models for Model-Based Reinforcement Learning

Erik Talvitie|arXiv (Cornell University)|Dec 19, 2016

Reinforcement Learning in Robotics被引用 22

一句话总结

本文提出了一种理论基础扎实的基于模型强化学习（MBRL）方法，通过在rollout过程中训练模型自我纠正错误，从而提升规划的鲁棒性。该方法提出Hallucinated DAgger with Model Correction（H-DAgger-MC），可提高多步预测的准确性，并在模型类别受限时仍提供性能保证，优于标准的一步预测误差最小化方法。

ABSTRACT

When an agent cannot represent a perfectly accurate model of its environment's dynamics, model-based reinforcement learning (MBRL) can fail catastrophically. Planning involves composing the predictions of the model; when flawed predictions are composed, even minor errors can compound and render the model useless for planning. Hallucinated Replay (Talvitie 2014) trains the model to "correct" itself when it produces errors, substantially improving MBRL with flawed models. This paper theoretically analyzes this approach, illuminates settings in which it is likely to be effective or ineffective, and presents a novel error bound, showing that a model's ability to self-correct is more tightly related to MBRL performance than one-step prediction error. These results inspire an MBRL algorithm for deterministic MDPs with performance guarantees that are robust to model class limitations.

研究动机与目标

解决由于表示能力受限导致模型不完美时，基于模型强化学习（MBRL）失效的问题。
阐明为何标准的一步预测误差是MBRL性能的不良代理，尤其是在模型组合场景下。
开发一种理论基础扎实的方法，通过在rollout过程中实现自我纠正，提升多步规划的准确性。
分析幻觉训练在何种条件下有效或无效，并识别训练中的稳定性问题。
推导一种新型MBRL算法，其性能保证对模型类别限制具有鲁棒性。

提出的方法

提出幻觉回放（Hallucinated Replay）作为一种元算法，使模型能够即使在输入为自身生成的错误rollout时，也能预测正确的环境状态。
提出H-DAgger-MC，作为DAgger的一种变体，利用幻觉rollout训练模型实现自我纠正，从而提升长时序预测性能。
推导出一种新型误差界，表明自我纠正能力与MBRL性能的关联性比一步误差更为紧密。
使用展开模型（每个时间步使用独立模型）来解耦训练分布与模型参数，防止因反馈回路导致性能下降。
分析理论条件，阐明幻觉训练在何种情况下能提升性能，识别出其误差界优于标准训练的场景。
通过实验评估幻觉训练的稳定性，发现单模型设置下深度rollout会导致误差传播，从而引起性能下降。

实验结果

研究问题

RQ1在何种条件下，模型rollout中的自我纠正能带来优于最小化一步预测误差的MBRL性能？
RQ2为何幻觉训练在某些场景下会失效，其成功所需的结构假设是什么？
RQ3能否通过自我纠正训练克服模型类别限制，其理论保证为何？
RQ4在幻觉训练中，展开模型与共享模型的选择如何影响训练稳定性和性能？
RQ5幻觉训练中的反馈回路具有何种实际影响，以及如何缓解？

主要发现

通过新型理论误差界证明，自我纠正能力与MBRL性能的关联性比一步误差更为紧密。
H-DAgger-MC即使在模型类别无法完美表示真实动态的情况下，也能在确定性MDP中实现性能保证。
实验表明，使用展开模型的H-DAgger-MC可避免单模型设置下因深度rollout导致的性能下降，后者会引发误差反馈回路。
在单模型设置中，缩短训练rollout可提升性能，表明截断可能是一种实用的折中方案，但缺乏理论保证。
当单个模型被用于多个时间步时，幻觉训练可能使学习过程不稳定，因为模型更新可能因预测误差与训练分布之间的反馈而放大误差。
即使在模型类别受限的情况下，该方法依然有效，表明其对模型和规划器中表示缺陷具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。