QUICK REVIEW

[논문 리뷰] Regret Bounds for Robust Adaptive Control of the Linear Quadratic Regulator

Sarah Dean, Horia Mania|arXiv (Cornell University)|2018. 05. 23.

Advanced Bandit Algorithms Research인용 수 169

한 줄 요약

논문은 높은 확률의 서브선형 후회(O~(T^{2/3}))를 가지는 최초의 다항 시간 강건 적응형 LQR 알고리즘과 일치하는 하한 및 후회와 파라미터 추정 간의 연결에 대한 통찰을 제시한다.

ABSTRACT

We consider adaptive control of the Linear Quadratic Regulator (LQR), where an unknown linear system is controlled subject to quadratic costs. Leveraging recent developments in the estimation of linear systems and in robust controller synthesis, we present the first provably polynomial time algorithm that provides high probability guarantees of sub-linear regret on this problem. We further study the interplay between regret minimization and parameter estimation by proving a lower bound on the expected regret in terms of the exploration schedule used by any algorithm. Finally, we conduct a numerical study comparing our robust adaptive algorithm to other methods from the adaptive LQR literature, and demonstrate the flexibility of our proposed method by extending it to a demand forecasting problem subject to state constraints.

연구 동기 및 목표

비대칭 LTI 시스템의 이차 비용에 대한 적응 제어를 동기 부여하고 비점근 보장을 제시한다.
항상 안정성과 거의 최적성을 보장하는 강건한 적응 제어 알고리즘을 개발한다.
서브선형 후회 보장 및 시스템 파라미터 추정 속도를 확립한다.
후회 최소화와 파라미터 추정 간의 trade-off를 탐구한다.
OFU 및 Thompson Sampling 방법 대비 실험적 성능을 시연하고 제약 환경으로 확장한다.

제안 방법

문제를 System Level Synthesis (SLS)를 통해 프레임화하여 제어 설계를 시스템 응답(Φ_x, Φ_u)에 대한 아핀 제약으로 표현한다.
추정된 동역학(Ã, B̂)으로부터 강건성 보장을 갖춘 SDP 기반 최적화를 사용해 제어기를 합성한다.
에폭 기반의 탐사 방식을 노이즈를 주입하고 주기적으로 (A*, B*)의 최소제곱 추정을 업데이트하는 방식으로 구현한다.
추정기가 Ŝ(T^{-1/3})의 속도로 수렴하고 후회가 high probability 하에 Ŝ(T^{2/3})로 증가함을 보인다.
로그를 포함한 요인을 제외하고 이 속도가 최적임을 보이는 상응하는 후회 하한을 도출한다.
다항 시간 계산을 가능하게 하기 위한 FIR 제약을 통한 유한 차원 SDP 재구성을 제시하여 다항 시간 계산을 가능하게 한다.

실험 결과

연구 질문

RQ1적응 LQR에서 unverifiable한 가정 없이도 높은 확률의 서브선형 후회를 다항 시간으로 달성할 수 있는가?
RQ2적응 제어에 의해 발생하는 후회와 시스템 파라미터를 추정하는 속도 사이의 근본적 연결 고리는 무엇인가?
RQ3System Level Synthesis가 실제 다이나믹이 알려지지 않은 경우에도 강건한 성능을 어떻게 가능하게 하는가?
RQ4상태 제약하에서 실무적으로 OFU/TS 기반 접근법과 비교해 강건한 적응 방법은 어떻게 다른가?
RQ5프레임워크를 안전 제약이나 구조가 알려진 교란 환경으로 확장할 수 있는가?

주요 결과

제안된 강건한 적응 제어 알고리즘은 높은 확률로 regret Õ(T^{2/3})를 달성한다.
(A*, B*)의 시스템 파라미터 추정이 Õ(T^{-1/3})의 속도로 수렴한다.
예상 후회에 대해 Ω(T^{2/3})의 하한을 보였으며, 이 속도는 로그 요인을 제외하고 최적임이 입증된다.
제어 정책은 실제 시스템에 대해 추정 모형과 교란이 SLS 유도 조건을 만족할 때 항상 안정화 역할을 유지한다.
수치 실험에서 OFU/TS 기반 기준선과의 후회 경쟁력을 보이고 실제 시스템에서 무한 수평 비용이 개선되며 상태 제약이 있는 수요 예측으로의 확장이 시연된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.