QUICK REVIEW

[论文解读] Learning the Globally Optimal Distributed LQ Regulator

Luca Furieri, Yang Zheng|arXiv (Cornell University)|Dec 18, 2019

Advanced Control Systems Optimization参考文献 23被引用 30

一句话总结

该论文提出了一种无模型学习方法，用于在子空间约束下实现全局最优的分布式线性二次（LQ）调节器，利用具有梯度支配特性的零阶优化。该工作首次建立了在有限时域分布式LQ问题中学习全局最优输出反馈控制器的样本复杂度边界，尤其针对二次不变（QI）及某些非QI问题。

ABSTRACT

We study model-free learning methods for the output-feedback Linear Quadratic (LQ) control problem in finite-horizon subject to subspace constraints on the control policy. Subspace constraints naturally arise in the field of distributed control and present a significant challenge in the sense that standard model-based optimization and learning leads to intractable numerical programs in general. Building upon recent results in zeroth-order optimization, we establish model-free sample-complexity bounds for the class of distributed LQ problems where a local gradient dominance constant exists on any sublevel set of the cost function. %which admit a local gradient dominance constant valid on the sublevel set of the cost function. We prove that a fundamental class of distributed control problems - commonly referred to as Quadratically Invariant (QI) problems - as well as others possess this property. To the best of our knowledge, our result is the first sample-complexity bound guarantee on learning globally optimal distributed output-feedback control policies.

研究动机与目标

解决在子空间约束下，有限时域LQ问题中学习全局最优分布式输出反馈控制器的挑战。
克服由于NP难性和可行集不连通性导致的分布式控制模型基优化不可行性。
提出一种无模型学习框架，避免系统建模，直接从轨迹数据中优化控制策略。
在合理假设下，建立收敛至全局最优的理论样本复杂度边界。
证明二次不变（QI）问题及部分非QI问题具有局部梯度支配性，从而实现高效学习。

提出的方法

将分布式LQ控制问题建模为具有时变动态线性策略的有限时域优化问题，且策略被约束在子空间中。
利用零阶优化技术，直接从系统轨迹中学习控制器参数，无需系统模型。
引入并利用代价函数子水平集上的局部梯度支配性质，以确保收敛至全局最优。
通过干扰和噪声分布的谱特性，建立代价函数曲率与梯度范数的边界。
通过结合梯度支配性与集中不等式及策略参数的扰动分析，推导样本复杂度边界。
通过已知最优解的有限时域分布式控制问题的数值实验，验证理论结果。

实验结果

研究问题

RQ1在子空间约束下，无模型学习能否在分布式LQ控制中实现全局最优？
RQ2控制问题的何种结构特性可实现无模型方法的全局收敛？
RQ3在有限时域LQ问题中，实现ε-次优分布式控制器所需的样本复杂度是多少？
RQ4二次不变（QI）问题及其他结构化类别是否满足高效学习所必需的局部梯度支配性质？
RQ5与现有模型基或无模型方法相比，所提方法在收敛性和样本效率方面表现如何？

主要发现

该论文首次建立了在有限时域分布式LQ问题中学习全局最优分布式输出反馈控制器的样本复杂度边界。
所有二次不变（QI）问题及部分非QI问题均满足局部梯度支配性质，从而支持无模型方法的全局收敛。
样本复杂度随ε⁻²呈Õ(ε⁻²)量级，与非分布式设置下的最佳已知边界一致。
理论边界通过数值实验得到验证：当在预测样本量处停止时，算法1在10次实验中有10次收敛至全局最优解的ε = 0.02以内。
代价函数被证明具有局部梯度支配性，其常数依赖于过程噪声与测量噪声的谱特性。
该方法在无需显式系统辨识的情况下实现收敛，因此对模型不确定性具有鲁棒性，适用于大规模分布式系统。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。