Skip to main content
QUICK REVIEW

[논문 리뷰] Gradient Dominance in the Linear Quadratic Regulator: A Unified Analysis for Continuous-Time and Discrete-Time Systems

Yuto Watanabe, Yang Zheng|arXiv (Cornell University)|2026. 02. 26.
Adaptive Dynamic Programming Control인용 수 0
한 줄 요약

본 논문은 연속-시간 및 이산-시간 LQR에 대해 통합된 그래디언트 지배(PL 부등식) 프레임워크를 제시하고, 공통의 볼록-리프팅 방식이 전역/준전역 보장을 산출한다는 점과 시간 영역 간 차이를 명확히 한다.

ABSTRACT

Despite its nonconvexity, policy optimization for the Linear Quadratic Regulator (LQR) admits a favorable structural property known as gradient dominance, which facilitates linear convergence of policy gradient methods to the globally optimal gain. While gradient dominance has been extensively studied, continuous-time and discrete-time LQRs have largely been analyzed separately, relying on slightly different assumptions, proof strategies, and resulting guarantees. In this paper, we present a unified gradient dominance property for both continuous-time and discrete-time LQRs under mild stabilizability and detectability assumptions. Our analysis is based on a convex reformulation derived from a common Lyapunov inequality representation and a unified change-of-variables procedure. This convex-lifting perspective yields a single proof framework applicable to both time models. The unified treatment clarifies how differences between continuous-time and discrete-time dynamics influence theoretical guarantees and reveals a deeper structural symmetry between the two formulations. Numerical examples illustrate and support the theoretical findings.

연구 동기 및 목표

  • LQR에 대한 정책 최적화를 촉진하고, 완화된 안정가능성과 검출가능성 가정하에서 비볼록적 지형을 이해한다.
  • 연속-시간 및 이산-시간 LQR 문제에 적용 가능한 통합된 그래디언트 지배(POLYAK–ŁOJASIEWICZ) 프레임워크를 제공한다.
  • 그래디언트 기반 방법이 전역 최적해로 선형 수렴하는 정확한 조건을 제시한다.
  • 시간 이산화가(연속-시간 대 이산-시간) 보장 및 지형 구조에 어떤 영향을 미치는지 명확히 한다.

제안 방법

  • 공통 Lyapunov 기반 표현을 사용하여 연속-시간 및 이산-시간 LQR을 통합 정책 최적화 프레임워크에서 형식화한다.
  • 연속-시간 Psi_ct와 이산-시간 Psi_dt를 사용한 통합 연산자 기반 리프팅을 도입하여 Lyapunov 방정식을 공통 제약 구조로 재구성한다.
  • 현재 정책 K에 의존하는 비균일 상수 mu_K를 갖는 통합된 그래디언트 지배 결과(정리 3)를 도출한다.
  • mu_K가 하한으로 보정되어 콤팩트 부분집합에서 균일한 그래디언트 지배를 얻고(적상 1), 이산-시간 경우에는 전역 그래디언트 지배를 얻을 수 있음을 보인다(적상 2).
  • Lyapunov 방정식의 부등식 완화를 통한 볼록 재구성과 부분최소화/연쇄법 논증을 사용하여 J(K)-J*에 대한 하한 및 상한을 모두 얻어 그래디언트 지배를 확립한다.
  • 가정 2(X_K 양의 정부호성)의 함의를 논의하고 X_K의 특성을 그래디언트 지배 및 고유성에 연결하는 예제와 명제를 제시한다.

실험 결과

연구 질문

  • RQ1완만한 가정하에 연속-시간 및 이산-시간 LQR 모두에 대해 통합된 그래디언트 지배 프레임워크를 확립할 수 있는가?
  • RQ2정책 그래디언트 방법의 선형 수렴을 보장하는 균일하거나 전역 그래디언트 지배 상수를 얻을 수 있는 조건은 무엇인가?
  • RQ3연속-시간 및 이산-시간 Lyapunov 구조가 LQR의 정책 최적화 지형 및 보장에 어떤 영향을 미치는가?
  • RQ4최적 LQR 이득이 언제 고유해지며, 가정 2가 최적화 지형의 특이성에 어떤 영향을 미치는가?
  • RQ5실용적 함의와 조건들(W>0, Q≥0 등)이 두 시간 영역 모두에서 그래디언트 지배적 특성을 보장하는가?

주요 결과

  • 안정화가능성과 탐지가능성 가정하에 연속-시간 및 이산-시간 LQR 모두에 대해 통합된 그래디언트 지배 결과(정리 3)가 성립한다.
  • 그래디언트 지배 상수 mu_K는 Lyapunov 해 X_K를 통해 K에 의존하며, 콤팩트 부분집합에서 균일한 mu를 얻을 수 있다(적상 1).
  • X_K ≥ W > 0 때문에 이산-시간 LQR는 완만한 조건 하에서 전역 그래디언트 지배를 얻는다(적상 2).
  • 완화된 Lyapunov 방정식을 이용한 볼록 리프팅 재구성은 J(K)-J*를 아래에서 위로 모두 경계하는 단일 프레임워크를 가능하게 하여 그래디언트 지배를 야기한다.
  • 가정 2(X_K > 0)은 최적 이득의 고유성을 보장하고 지형의 특이점을 제거한다(명제 2).
  • 본 논문은 제어가능성/탐지가능성 조건으로 인해 그래디언트 지배가 전역적으로, 준국소적으로 성립하는지, 또는 전역성이 실패하는지를 보여주는 실례를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.