QUICK REVIEW

[논문 리뷰] Learning Linear-Quadratic Regulators Efficiently with only $\sqrt{T}$ Regret

Alon Cohen, Tomer Koren|arXiv (Cornell University)|2019. 02. 17.

Advanced Bandit Algorithms Research참고 문헌 27인용 수 20

한 줄 요약

이 논문은 $\tilde{O}(\runtime)$의 리그레트를 갖는 선형-이차 조절기(LQR)를 계산적으로 효율적인 알고리즘으로 학습하는 데 있어 첫 번째의 방법을 제시한다. 이는 오랫동안 미해결된 열린 문제를 해결한 것이다. 알고리즘은 LQR 문제를 연속적인 볼록 준선형계획문(SDP)으로 재구성함으로써, 시간이 지남에 따라 좁아지는 낙관적 정책 갱신을 사용하여 탐색과 이용의 균형을 이루며, 다항시간 계산으로 근사 최적의 리그레트를 달성한다.

ABSTRACT

We present the first computationally-efficient algorithm with $\widetilde O(\sqrt{T})$ regret for learning in Linear Quadratic Control systems with unknown dynamics. By that, we resolve an open question of Abbasi-Yadkori and Szepesvári (2011) and Dean, Mania, Matni, Recht, and Tu (2018).

연구 동기 및 목표

계산적으로 효율적인 알고리즘을 통해 미지의 동역학을 갖는 LQR 제어에서 $\tilde{O}(\runtime)$ 리그레트를 달성하는 열린 문제를 해결하기 위해.
비효율적인 기하급수적 계산 비용 없이, 미지의 LQR 시스템에서 탐색과 이용을 균형 잡는 학습 알고리즘을 설계하기 위해.
기존 연구의 통계적 리그레트 한계를 따라가며 동시에 실용적으로 구현 가능한 다항시간 알고리즘을 제공하기 위해.
무한 시간 범위 LQR 문제의 준선형계획(SDP) 근사를 통해 데이터가 축적됨에 따라 점차 정확도가 향상되는 프레임워크를 구축하기 위해.
비결정성에 대한 낙관주의 원칙을 연속 상태 LQR 시스템에 확장하여 증명 가능한 효율성과 리그레트 한계를 확보하기 위해.

제안 방법

무한 시간 범위 LQR 문제를 효율적인 최적화를 가능하게 하는 볼록 준선형계획문(SDP)으로 재구성하기 위해.
현재 추정치를 바탕으로 유리한 시스템 동역학을 가정하는 '낙관적' 정책을 생성하기 위해 SDP 근사화의 연속적 시퀀스를 사용하기 위해.
최소 제곱 추정과 고확률 농도 경계를 사용하여 미지의 시스템 매개변수에 대한 신뢰 집합을 유지하기 위해.
분석 중 상태 및 행동 노름의 尾행동을 제어하기 위해 핸슨-드라이트 부등식과 $\rho$-넷 추론을 적용하기 위해.
시스템 동역학 행렬 $(A_0, B_0)$의 추정 오차를 제한하기 위해 트레이스 및 연산자 노름 부등식을 활용하기 위해.
정보 행렬 $V$의 구조를 활용하여 역노름 경계를 유도함으로써, 시간이 지남에 따라 매개변수 추정 정확도를 보장하기 위해.

실험 결과

연구 질문

RQ1계산적으로 효율적인 알고리즘이 미지의 동역학을 갖는 LQR 제어에서 $\tilde{O}(\runtime)$ 리그레트를 달성할 수 있는가?
RQ2연속적인 LQR 시스템에서 볼록 최적화를 사용하여 비결정성에 대한 낙관을 유지할 수 있는가?
RQ3준선형계획(SDP)을 어떻게 사용하여 무한 시간 범위 LQR 비용 함수를 근사하면서 수렴성을 보장할 수 있는가?
RQ4노이즈가 존재할 때 표본 수 $T_0$와 추정된 시스템 매개변수의 정확도 사이의 관계는 무엇인가?
RQ5각 단계에서 비볼록 최적화를 요구하지 않고도 탐색과 이용을 균형 잡을 수 있는가?

주요 결과

제안된 알고리즘은 미지의 동역학을 갖는 LQR 제어에서 $\tilde{O}(\runtime)$ 리그레트를 달성하며, 로그 인자 외에는 통계적 하한선과 일치한다.
알고리즘은 반복마다 다항시간 내에 실행되며, 이는 이전의 $O(\runtime)$ 리그레트 방법의 계산 비효율성을 해결한다.
정보 행렬 $V$의 성장 덕분에, 시스템 매개변수의 추정 오차는 고확률로 $O(1/\runtime)$로 감소한다.
정보 행렬 $V$의 최소 고유값은 $\Omega(T_0 \sigma^2)$로 하한이 설정되어 있으며, 이는 역행렬 가능성과 안정적인 학습을 보장한다.
고확률로 추정 오차 행렬의 트레이스는 $O(n^2 \sigma^2 \log(T_0 / \delta))$ 이하로 제한되며, 여기서 $n$은 상태-행동 차원이다.
알고리즘은 초기 불확실성 하에서도 정책이 안정적이고 비용이 유한하게 유지됨을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.