QUICK REVIEW

[논문 리뷰] Certainty Equivalence is Efficient for Linear Quadratic Control

Horia Mania, Stephen Tu|arXiv (Cornell University)|2019. 02. 21.

Advanced Bandit Algorithms Research참고 문헌 37인용 수 42

한 줄 요약

본 논문은 추정된 선형 동역학을 가진 확실성 등가 제어기를 사용하면 완전히 관측된 LQR과 부분 관측 LQG 설정 모두에서 추정 오차 (epsilon)에 의해 제곱적으로 스케일하는 하위 최적성 격차를 산출하고, 이산 Riccati 방정식에 대한 새로운 섭동 경계(bound)을 제공한다.

ABSTRACT

We study the performance of the certainty equivalent controller on Linear Quadratic (LQ) control problems with unknown transition dynamics. We show that for both the fully and partially observed settings, the sub-optimality gap between the cost incurred by playing the certainty equivalent controller on the true system and the cost incurred by using the optimal LQ controller enjoys a fast statistical rate, scaling as the square of the parameter error. To the best of our knowledge, our result is the first sub-optimality guarantee in the partially observed Linear Quadratic Gaussian (LQG) setting. Furthermore, in the fully observed Linear Quadratic Regulator (LQR), our result improves upon recent work by Dean et al. (2017), who present an algorithm achieving a sub-optimality gap linear in the parameter error. A key part of our analysis relies on perturbation bounds for discrete Riccati equations. We provide two new perturbation bounds, one that expands on an existing result from Konstantinov et al. (1993), and another based on a new elementary proof strategy.

연구 동기 및 목표

알 수 없는 선형 동적 시스템의 LQR/LQG 설정 하에서 이차 비용을 목표로 하는 제어를 동기화한다.
확률 등가 제어가 오프라인 영역에서 모델 오차에 대해 이차 의존성을 달성함으로써 이전의 강건한 방법보다 우수할 수 있음을 보인다.
이산 Riccati 방정식에 대한 섭동 경계를 개발하고 적용하여 성능 격차를 정량화한다.

제안 방법

알려진 Q, R에 대해 A, B(그리고 L for LQG)의 미지수인 LQR/LQG 문제를 공식화한다.
추정된 모델을 사용하여 표준 Riccati/LQR 해를 통해 명목 제어기를 계산한다.
추정 오차와 제어기 불일치를 Riccati 섭동 경계를 통해 연결하는 메타 정리를 도출한다.
하위 최적성 격차가 O(f(epsilon)^2)로 스케일된다는 것을 증명한다. 여기서 f는 P_hat - P_star에 대한 섭동 경계이다.
Q 섭동도 처리하는 섭동 프레임워크를 사용하여 LQG 설정으로 분석을 확장한다.
Riccati 해에 대한 두 가지 명시적 섭동 경계를 제공한다(하나는 Konstantinov et al.를 확장하고, 다른 하나는 새로운 초등적 증명).

실험 결과

연구 질문

RQ1확실성 동등성으로 얻은 서브최적성 격차가 LQR과 LQG에서 모델 오차에 대해 이차적으로 스케일되는가?
RQ2Riccati 해의 섭동이 명목 제어기의 성능 격차로 어떻게 변환되는가?
RQ3추정 동역학으로부터 얻은 제어기를 실제 시스템에 적용할 때 안정성 보장 및 비용 한계는 어떻게 되는가?
RQ4오프라인 및 온라인(적응) 제어 체제에서 LQR 대 LQG 설정의 비교 시사점은 무엇인가?

주요 결과

오프라인 LQR 및 LQG에서 확실성 등가 제어기는 매개변수 오차(epsilon)의 제곱에 비례하는 하위 최적성 격차를 달성한다.
작성자는 민감도 분석을 뒷받침하기 위한 두 가지 새로운 Riccati 섭동 경계를 제공한다.
완전히 관측된 LQR에서 이 결과는 Dean et al. (2019)의 선형-에psilon 보장보다 개선된다.
LQG의 부분 관측 설정에 대한 최초의 하위 최적성 보장을 이 연구가 제공한다.
해석으로부터 빠른 O(epsilon^2) 오차 감소가 모델 불확실성의 강건성과의 트레이드오프를 동반한다는 시사점을 얻을 수 있다.
엔드-투-엔드 시사점은 표준 N-샘플 학습에서 엔드-투-엔드 비용 격차가 이러한 보장 하에서 O(1/N)로 스케일된다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.