QUICK REVIEW

[论文解读] Agnostic System Identification for Model-Based Reinforcement Learning

Stéphane Ross, J. Andrew Bagnell|arXiv (Cornell University)|Mar 5, 2012

Advanced Bandit Algorithms Research参考文献 16被引用 47

一句话总结

本文提出了一种基于模型的强化学习的迭代在线学习方法，在真实系统不在模型类中的情况下（即对抗性设定下）仍能实现强大的性能保证。通过在当前策略下迭代收集数据并使用无遗憾的在线学习算法更新模型，该方法确保了近似最优的策略性能，且样本复杂度仅与模型类的复杂度相关，而非MDP的规模，因此在具有挑战性的直升机控制任务中优于批量方法和先前的MBRL方法。

ABSTRACT

A fundamental problem in control is to learn a model of a system from observations that is useful for controller synthesis. To provide good performance guarantees, existing methods must assume that the real system is in the class of models considered during learning. We present an iterative method with strong guarantees even in the agnostic case where the system is not in the class. In particular, we show that any no-regret online learning algorithm can be used to obtain a near-optimal policy, provided some model achieves low training error and access to a good exploration distribution. Our approach applies to both discrete and continuous domains. We demonstrate its efficacy and scalability on a challenging helicopter domain from the literature.

研究动机与目标

为解决现有MBRL方法要求真实系统必须属于模型类这一局限性，该要求在实际中往往不现实。
在真实系统可能无法由模型类表示的对抗性设定下，提供性能保证。
通过确保样本复杂度仅与模型类复杂度相关，而非MDP规模，从而降低样本复杂度。
形式化并改进现实世界控制应用中控制器设计与系统辨识交替进行的迭代实践。
在存在延迟和噪声的具有挑战性的模拟直升机领域中，展示该方法的有效性与可扩展性。

提出的方法

提出一种迭代算法，交替执行基于当前模型生成的策略，并收集新数据以改进模型。
使用无遗憾的在线学习算法更新模型，确保累积预测误差的增长为次线性。
引入一种动作分布（探索分布），以确保在数据收集过程中对状态-动作空间有充分覆盖。
采用基于约化的分析方法，将策略遗憾与模型预测误差关联，从而实现对抗性保证。
在直升机领域中，对非马尔可夫动态采用时变线性模型，并在每个时间步更新模型参数。
使用批量方法作为基线进行比较，该方法仅从初始数据中一次性拟合模型，且不进行自适应调整。

实验结果

研究问题

RQ1基于模型的强化学习算法是否能在真实系统不属于模型类的对抗性设定下，实现强大的性能保证？
RQ2采用自适应数据收集的迭代在线学习方法是否优于依赖静态数据收集的批量方法？
RQ3能否将MBRL的样本复杂度与MDP规模解耦，而仅依赖于模型类的复杂度？
RQ4探索分布的选择如何影响所学策略的收敛性和性能？
RQ5所提出的方法在遗憾保证方面是否能与模型无关的RL方法相媲美或超越？

主要发现

DAgger（所提出的迭代方法）在所有实验设置中，包括使用不同探索分布的情况下，始终优于批量方法。
即使批量方法使用了最优探索分布，DAgger仍收敛更快，并在测试轨迹上实现了更低的平均总成本。
DAgger为所学策略访问过的状态学习到了更优的模型，从而在存在噪声和延迟的情况下，性能甚至优于专家策略。
Abbeel的方法仅在第一次迭代中依赖专家演示，由于缺乏持续探索，性能过早停滞，且表现不如DAgger。
在样本有限（每次迭代100个样本）的情况下，模型无关的策略梯度方法仅表现出微弱改进，凸显了所提MBRL方法的优势。
在鼻尖进 funnel 的机动中，DAgger 成功学习到执行4次完整旋转，而初始基于模型的控制器则完全失败。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。