Skip to main content
QUICK REVIEW

[论文解读] Convex Analysis for LQG Systems with Applications to Major Minor LQG Mean-Field Game Systems

Dena Firoozi, Sebastian Jaimungal|arXiv (Cornell University)|Oct 15, 2018
Stochastic processes and financial applications参考文献 62被引用 27
一句话总结

本文提出一种凸分析方法,用于求解线性二次高斯(LQG)最优控制问题,并将其应用于主要-次要均场博弈(MFG)系统,无需对均场演化施加限制性假设,即可推导出$\epsilon$-纳什均衡策略。该方法利用Gâteaux导数和Riccati方程,在有限与无限时域设置下刻画主要与次要代理的最佳响应控制。

ABSTRACT

We develop a convex analysis approach for solving LQG optimal control problems and apply it to major-minor (MM) LQG mean-field game (MFG) systems. The approach retrieves the best response strategies for the major agent and all minor agents that attain an $\\epsilon$-Nash equilibrium. An important and distinctive advantage to this approach is that unlike the classical approach in the literature, we are able to avoid imposing assumptions on the evolution of the mean-field. In particular, this provides a tool for dealing with complex and non-standard systems.

研究动机与目标

  • 开发一种凸分析框架,用于求解LQG最优控制问题,且无需对均场动力学施加限制性假设。
  • 将该框架扩展至主要-次要LQG均场博弈(MFG)系统,其中一名主要代理与大量次要代理相互作用。
  • 在有限与无限时域设置下,推导出主要与次要代理的显式最佳响应策略,实现$\epsilon$-纳什均衡。
  • 通过避免对均场演化施加经典假设,提供一种系统化方法求解LQG MFG系统,使其可应用于复杂且非标准的系统。
  • 在可检测性、可稳定性和渐近稳定性条件下,建立所得到的固定点方程解的存在性与唯一性。

提出的方法

  • 利用成本泛函的Gâteaux导数作为随机动力系统中最优性的必要条件。
  • 应用凸分析推导LQG控制问题的必要与充分最优条件,避免依赖动态规划或随机最大值原理。
  • 通过Riccati方程和关于协态与偏移项的线性矩阵系统,推导主要代理与次要代理的最佳响应策略。
  • 在无限时域情况下,通过代数Riccati方程和时不变Riccati矩阵,在折扣成本准则下求解。
  • 对系统矩阵施加条件(稳定性、可检测性、可稳定化),以确保固定点方程解的存在性与唯一性。
  • 通过群体规模趋于无穷时的收敛性论证,建立所推导策略与$\epsilon$-纳什均衡之间的等价性。

实验结果

研究问题

  • RQ1是否可以使用凸分析方法求解LQG最优控制问题,而无需对均场演化施加特定规律假设?
  • RQ2在均场博弈框架下,如何为一名主要代理和大量次要代理群体推导最佳响应策略?
  • RQ3在主要-次要LQG MFG系统中,确保所得到的固定点方程解的存在性与唯一性的条件是什么?
  • RQ4所推导的策略如何在有限与无限时域设置下实现$\epsilon$-纳什均衡?
  • RQ5Riccati方程与Gâteaux导数在该凸框架中表征最优控制律时起什么作用?

主要发现

  • 凸分析方法成功地在主要-次要LQG MFG系统中恢复了主要与次要代理的最佳响应策略,且无需对均场演化施加任何假设。
  • 对于有限时域系统,最佳响应策略通过Riccati方程和协态与偏移项的线性系统推导得出,满足方程(133)。
  • 在无限时域情况下,解由代数Riccati方程(139)与(141)表征,具有时不变Riccati矩阵与常数偏移向量。
  • 在假设11–13条件下,该方法确保了解的存在性与唯一性,这些条件包括系统矩阵的渐近稳定性、可检测性与可稳定化性。
  • 当群体规模$N \to \infty$时,所推导的策略形成$\epsilon$-纳什均衡,近似误差在极限下趋于零。
  • 由于未对均场动力学施加限制性假设,该框架具有通用性,可适用于复杂且非标准的系统。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。