QUICK REVIEW

[论文解读] Finite-time Analysis of Approximate Policy Iteration for the Linear Quadratic Regulator

Karl Krauth, Stephen Tu|arXiv (Cornell University)|May 30, 2019

Advanced Bandit Algorithms Research参考文献 33被引用 22

一句话总结

本文首次对线性二次调节器（LQR）的近似策略迭代（PI）进行了有限时间分析，表明策略评估主导了样本复杂度。通过最小二乘时差学习（LSTD-Q），建立了实现 ε-最优控制器的样本复杂度为 $(n+d)^3 ^{-2} \log(1/\varepsilon)$，且仅需 $\log(1/\varepsilon)$ 次策略改进步骤即可完成。

ABSTRACT

We study the sample complexity of approximate policy iteration (PI) for the Linear Quadratic Regulator (LQR), building on a recent line of work using LQR as a testbed to understand the limits of reinforcement learning (RL) algorithms on continuous control tasks. Our analysis quantifies the tension between policy improvement and policy evaluation, and suggests that policy evaluation is the dominant factor in terms of sample complexity. Specifically, we show that to obtain a controller that is within $\varepsilon$ of the optimal LQR controller, each step of policy evaluation requires at most $(n+d)^3/\varepsilon^2$ samples, where $n$ is the dimension of the state vector and $d$ is the dimension of the input vector. On the other hand, only $\log(1/\varepsilon)$ policy improvement steps suffice, resulting in an overall sample complexity of $(n+d)^3 \varepsilon^{-2} \log(1/\varepsilon)$. We furthermore build on our analysis and construct a simple adaptive procedure based on $\varepsilon$-greedy exploration which relies on approximate PI as a sub-routine and obtains $T^{2/3}$ regret, improving upon a recent result of Abbasi-Yadkori et al.

研究动机与目标

为填补在连续控制任务中，特别是LQR设置下，无模型近似策略迭代（PI）的有限时间样本复杂度理解上的空白。
量化近似PI中策略改进与策略评估之间的权衡，识别出哪一阶段主导了样本复杂度。
将分析扩展至在线、自适应LQR设置，并为使用近似PI作为子程序的无模型算法推导出遗憾界。
通过基于 $\varepsilon$-贪婪探索的自适应过程，改进先前在在线LQR中的无模型遗憾界。
建立LQR中近似PI的首个非渐近收敛速率，超越Bradtke（1994）的渐近一致性结果。

提出的方法

使用最小二乘时差学习（LSTD-Q）分析近似PI中的策略评估，重点关注状态值函数估计误差。
推导出每步策略评估的样本复杂度界为 $\widetilde{O}((n+d)^3 / \varepsilon^2)$，其中 $n$ 为状态维数，$d$ 为输入维数。
表明仅需 $\mathcal{O}(\log(1/\varepsilon))$ 次策略改进步骤即可实现控制器的 $\varepsilon$-最优性，归因于快速的局部收敛。
构建一种基于 $\varepsilon$-贪婪探索和近似PI作为子程序的自适应算法，采用基于周期相关噪声方差的新型探索调度。
采用离散李雅普诺夫方程框架分析策略评估与改进步骤中的稳定性与误差传播。
使用两点估计器进行无导数优化（DFO），并在实验中与策略梯度方法比较，验证了理论上的样本效率。

实验结果

研究问题

RQ1近似PI在LQR中的有限时间样本复杂度是多少？其中策略评估与策略改进，哪一因素主导了复杂度？
RQ2在在线自适应LQR设置中，无模型算法能否实现次优快速的遗憾？其与基于模型的基线方法相比如何？
RQ3在LQR设置中，近似PI是否能以非渐近速率收敛？若能，其在 $\varepsilon$-最优性下的收敛速率是多少？
RQ4基于 $\varepsilon$-贪婪探索和近似PI的自适应探索策略，能否获得优于先前无模型方法的遗憾界？
RQ5是否能通过无模型算法在在线LQR中实现 $T^{2/3}$ 的遗憾界？与基于模型方法的最优 $T^{1/2}$ 速率相比如何？

主要发现

近似PI在LQR中的样本复杂度为 $\mathcal{O}((n+d)^3 \varepsilon^{-2} \log(1/\varepsilon))$，策略评估为主导因素，每步最多需 $(n+d)^3 / \varepsilon^2$ 个样本。
仅需 $\log(1/\varepsilon)$ 次策略改进步骤即可实现 $\varepsilon$-最优性，表明策略改进阶段收敛迅速。
本文为在线LQR设置中基于无模型自适应算法建立了 $\widetilde{O}(T^{2/3})$ 的遗憾界，优于Abbasi-Yadkori等人[3]的 $\widetilde{O}(T^{2/3 + \varepsilon})$ 结果。
该 $T^{2/3}$ 遗憾界是目前在线LQR中任何无模型算法的最佳结果，尽管仍低于基于模型方法的 $T^{1/2}$ 最优速率。
该分析首次为LQR中的近似PI提供了非渐近收敛保证，将Bradtke（1994）的渐近一致性结果扩展至有限时间误差界。
通过实验验证了结果，比较了策略梯度、DFO与LSPI方法，超参数通过网格搜索优化以最小化10^6个时间步后的成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。