QUICK REVIEW

[논문 리뷰] LQR through the Lens of First Order Methods: Discrete-time Case

Jingjing Bu, Afshin Mesbahi|arXiv (Cornell University)|2019. 07. 21.

Adaptive Dynamic Programming Control참고 문헌 18인용 수 76

한 줄 요약

이 논문은 이산 시간 LQR을 안정화 피드백 이득에 대한 실수 값 최적화로 재구성하고, 그래디언트, 자연 그래디언트, 준-뉴턴 흐름과 그 이산화 방법을 분석하며 구조화된(희소성) 케이스를 포함한다.

ABSTRACT

We consider the Linear-Quadratic-Regulator (LQR) problem in terms of optimizing a real-valued matrix function over the set of feedback gains. Such a setup facilitates examining the implications of a natural initial-state independent formulation of LQR in designing first order algorithms. It is shown that this cost function is smooth and coercive, and provide an alternate means of noting its gradient dominated property. In the process, we provide a number of analytic observations on the LQR cost when directly analyzed in terms of the feedback gain. We then examine three types of well-posed flows for LQR: gradient flow, natural gradient flow and the quasi-Newton flow. The coercive property suggests that these flows admit unique solutions while gradient dominated property indicates that the corresponding Lyapunov functionals decay at an exponential rate; we also prove that these flows are exponentially stable in the sense of Lyapunov. We then discuss the forward Euler discretization of these flows, realized as gradient descent, natural gradient descent and the quasi-Newton iteration. We present stepsize criteria for gradient descent and natural gradient descent, guaranteeing that both algorithms converge linearly to the global optima. An optimal stepsize for the quasi-Newton iteration is also proposed, guaranteeing a $Q$-quadratic convergence rate--and in the meantime--recovering the Hewer algorithm.

연구 동기 및 목표

초기 상태에 독립적인 비용 형식을 사용하여 안정화 피드백 이득 위에서 직접 LQR를 해결하는 동기를 제시한다.
피드백 이득에 대한 LQR 비용의 매끄러움, 강제성(coercivity), 그리고 그래디언트 지배적 속성을 확립한다.
세 가지 흐름 역학(그래디언트 흐름, 자연 그래디언트 흐름, 준-뉴턴 흐름)을 개발하고 분석하며 이들의 전진 오일러 이산화를 다룬다.
비구조화 및 구조화된(희소성) LQR 합성에 대한 선형 및 2차 수렴 보장과 스텝사이즈 기준을 제시한다.

제안 방법

고정된 초기 상태에 대해 비용 함수 J_x0(K)를 정의한 다음, 여러 개의 독립적인 초기 상태를 모아 미분 가능하고 제약이 없는 목적 함수 f(K)를 얻는다.
f(K)가 안정화 집합에서 매끄럽고, 강제성(coercivity), 그리고 실해석(real-analytic)이며, 그래디언트 지배적임을 보이고, 전역 수렴 결과를 가능하게 한다.
연속 시간에서 세 가지 흐름(그래디언트 흐름, 자연 그래디언트 흐름, 준-뉴턴 흐름)을 도출하고 분석하며 이들의 이산화(그래디언트 디센트, 자연 그래디언트 디센트, 가우스-뉴턴 유사 반복)도 다룬다.
Lyapunov 기반 스텝 사이즈 선택을 제공하고 비구조화된 LQR에 대해 글로벌 최적해로의 선형 수렴을, 준-뉴턴에 대해서는 2차 수렴을 확립한다.
프로젝티드 그래디언트 디센트를 사용하여 구조화된(LQR 합성의 희소성 제약) 프레임워크를 확장하고 1차 정지점에 대한 부분선형 수렴을 논의한다.

실험 결과

연구 질문

RQ1LQR 합성을 초기 상태에 의존하지 않는 비용으로 정의된 안정화 피드백 이득에 대한 최적화로 효과적으로 형상화할 수 있는가?
RQ2이 형식에서 LQR 비용의 해석적 속성(매끄러움, 강제성, 그래디언트 지배성)은 무엇인가?
RQ3그래디언트, 자연 그래디언트, 준-뉴턴 흐름이 전역 LQR 최적해로 수렴하는가, 그리고 속도는 어느 정도인가?
RQ4적절한 스텝 사이즈에서 이산화(그래디언트 디센트, 자연 그래디언트 디센트, 가우스-뉴턴 반복)의 성능은 어떠한가?
RQ5구조화된(희소성 제약) LQR 합성으로 접근법을 확장할 수 있는 방법과 프로젝션하에서의 수렴 보장은 어떠한가?

주요 결과

비용 함수는 유효 정의역에서 매끄럽고, 강제적이며, 그래디언트 지배적이다.
흐름은 Lyapunov의 관점에서 지수적으로 안정적이며 전역 최적해로 수렴한다.
적절한 스텝 사이즈 하에서 그래디언트 디센트, 자연 그래디언트 디센트, 준-뉴턴 반복에 의한 이산시간 업데이트는 선형 또는 2차 수렴을 달성한다.
자연 그래디언트 디센트는 값 행렬들에 대해 양의 반정합 코너에서 단조적으로 감소하는 수열을 생성한다.
프로젝티드 그래디언트 디센트를 통한 구조화된(희소성 패턴) LQR의 형식이 개발되었고, 1차 정지점에 대한 부분선형 수렴 보장이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.