[논문 리뷰] On the Sample Complexity of the Linear Quadratic Regulator
본 논문은 불확실한 동역학을 가지는 LQR에 대해 Coarse-ID 제어를 제시하며, 최소제곱을 통한 거친 시스템 식별, 불확실성 정량화, 그리고 System Level Synthesis를 통한 강건 제어를 결합하여 데이터 효율적인 보장을 갖는 안정화 제어기를 달성한다.
This paper addresses the optimal control problem known as the Linear Quadratic Regulator in the case when the dynamics are unknown. We propose a multi-stage procedure, called Coarse-ID control, that estimates a model from a few experimental trials, estimates the error in that model with respect to the truth, and then designs a controller using both the model and uncertainty estimate. Our technique uses contemporary tools from random matrix theory to bound the error in the estimation procedure. We also employ a recently developed approach to control synthesis called System Level Synthesis that enables robust control design by solving a convex optimization problem. We provide end-to-end bounds on the relative error in control cost that are nearly optimal in the number of parameters and that highlight salient properties of the system to be controlled such as closed-loop sensitivity and optimal control magnitude. We show experimentally that the Coarse-ID approach enables efficient computation of a stabilizing controller in regimes where simple control schemes that do not take the model uncertainty into account fail to stabilize the true system.
연구 동기 및 목표
- 알 수 없는 동역학을 가진 선형-이차 제어기(LQR)에 대한 안전하고 데이터 효율적인 학습의 필요성을 제시합니다.
- 시스템 식별과 강건한 제어기 합성을 결합하는 Coarse-ID 제어 프레임워크를 제시합니다.
- 유한 샘플에서의 추정 오차와 폐루프 성능에 대한 비점근적 보장을 제공합니다.
- 직관적인 방법이 실패하는 경우에도 Coarse-ID 제어가 안정화 제어기를 가능하게 한다는 것을 실험적으로 보입니다.
제안 방법
- 독립 롤아웃과 가우시안 들뜸으로부터 최소제곱을 이용해 알려지지 않은 A와 B를 추정합니다.
- (Â, B̂)의 최소제곱 추정에 대한 오차 경계는 N, 시스템 차원 및 잡음 수준에 따라 나타나는(제안 1.1) 를 제시합니다.
- 부트스트랩을 사용하여 (Â, B̂)에 대한 데이터 의존적 오차 경계 ε를 얻습니다(섹션 2.3).
- 추정 오차에 대한 고확률 경계를 이용해 섹교 ΔA, ΔB의 교란에 대한 robust LQR 문제를 형식화합니다.
- System Level Synthesis(SLS)를 통해 robust 안정성을 보장하고 상대 비용 간격을 한정하는 robust 합성 문제를 해결합니다(제안 1.2).
- SLS 최적화 문제에 대한 유한 차원 경계를 제시하고 시뮬레이션에서 안정화를 보입니다(섹션 4–6).
실험 결과
연구 질문
- RQ1롤아웃으로부터 선형 시스템의 동역학(A,B)을 학습하기 위한 finite-sample 보장이 무엇인지?
- RQ2실제 동역학이 데이터로부터 얻은 오차로 한정되어 있을 때도 시스템이 안정적으로 유지되고 좋은 성능을 보이는 제어기를 어떻게 합성할 수 있는가?
- RQ3시스템의 충격성(그람안)과 정확한 LQR 제어의 샘플 복잡도 사이의 관계는 무엇인가?
- RQ4낮은 정합 대신 coarse-identified 강건 제어기가 불확실한 시스템의 안정화를 위해 순진한 확실성 동등 방법보다 우수한가?
주요 결과
- Independent한 N개의 롤아웃을 이용한 (A,B) 추정에 대해 데이터 의존적이고 거의 최적에 가까운 샘플 복잡도 경계가 얻어지며, 그 의존성은 (n+p)와 제어 가능 그람안의 최솟 eigenvalue에 명시적으로 나타난다.
- 부트스트래핑은 추정된 동역학과 함께 작동하는 실용적인 데이터 기반의 오차 경계 εA 및 εB를 제공한다.
- SLS를 통한 robust LQR 형식화는 높은 확률로 O(C_LQR sqrt((n+p) log(1/δ)/N))의 상대 비용 경계를 갖는 제어기를 산출한다.
- 충분한 데이터와 모델 교란에 대한 한계가 주어지면 폐루프 시스템의 비대칭 안정화를 보장한다.
- 수치 실험은 순수 명목 디자인이 충분한 데이터에서도 불안정할 수 있는 반면, Coarse-ID 제어는 안정화 제어기를 효율적으로 합성한다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.