[논문 리뷰] Model-Free Linear Quadratic Control via Reduction to Expert Prediction
전문가-예측 축소를 이용한 정책 반복 유사 방식의 서브선형 후회를 갖는 적응 LQ 제어용 모델 프리 알고리즘.
Model-free approaches for reinforcement learning (RL) and continuous control find policies based only on past states and rewards, without fitting a model of the system dynamics. They are appealing as they are general purpose and easy to implement; however, they also come with fewer theoretical guarantees than model-based RL. In this work, we present a new model-free algorithm for controlling linear quadratic (LQ) systems, and show that its regret scales as $O(T^{ξ+2/3})$ for any small $ξ>0$ if time horizon satisfies $T>C^{1/ξ}$ for a constant $C$. The algorithm is based on a reduction of control of Markov decision processes to an expert prediction problem. In practice, it corresponds to a variant of policy iteration with forced exploration, where the policy in each phase is greedy with respect to the average of all previous value functions. This is the first model-free algorithm for adaptive control of LQ systems that provably achieves sublinear regret and has a polynomial computation cost. Empirically, our algorithm dramatically outperforms standard policy iteration, but performs worse than a model-based approach.
연구 동기 및 목표
- LQ 설정에서 이론적 보장을 갖춘 연속 제어를 위한 모델 프리 RL의 동기를 부여한다.
- 적응 LQ 제어에서 서브선형 후회를 달성하는 모델 프리 알고리즘(MFLQ)을 개발한다.
- 추정 오차 하에서 후회 한계와 안정성을 보이는 유한 시간 해석을 제공한다.
- MFLQ가 표준 정책 반복을 능가하고 실험적으로 모델 기반 성능에 근접함을 보여준다.
제안 방법
- MDP 제어를 전문가 예측 문제로 축소하고, 과거 Q-함수의 평균에 기초한 탐욕 정책을 사용하는 Follow-the-Leader로 구현한다.
- 강제 탐색이 있는 정책 반복의 변형을 사용하고, 각 단계의 정책은 과거 가치 함수 추정의 평균에 대해 탐욕적이다.
- 상태 가치 함수 H를 이차 형태의 값을 갖는 최소자승 시간차(LSTD)로 추정하고 H ≽ M으로 프로젝션한다.
- 추정된 H와 수집된 데이터로 상태-액션 가치 함수 G를 추정하고, 데이터는 탐색 및 무작위 행동을 통해 수집한다.
- 다양한 데이터 수집 일정과 단계 길이를 갖는 두 가지 변형(MFLQv1 및 MFLQv2)을 제시하고, 후회 경계를 도출한다.
- 서브선형 후회를 증명한다: Regret_T ≤ C T^{2/3+ξ} for v1 and Regret_T ≤ C T^{3/4+ξ} for v2, for T large enough.
실험 결과
연구 질문
- RQ1모델 프리 접근 방식의 적응 LQ 제어가 서브선형 후회를 달성할 수 있는가?
- RQ2MD P 제어를 전문가 예측 문제로 축소하는 것이 LQ 설정에서 계산적으로 다루기 쉽고 보장이 좋은 정책을 가능하게 하는가?
- RQ3이 맥락에서 가치 함수 및 정책 평가의 유한 시간 추정 보장은 무엇인가?
- RQ4탐색 일정이 모델 프리 LQ 제어의 안정성 및 장기 성능에 어떤 영향을 미치는가?
- RQ5MFLQ의 성능은 실험적으로 정책 반복 및 모델 기반 방법과 어떻게 비교되는가?
주요 결과
- 제안된 MFLQ 알고리즘은 평균 비용 LQ 설정에서 서브선형 후회를 달성한다: MFLQv1에서 O(T^{2/3+ξ}), MFLQv2에서 O(T^{3/4+ξ})이며, T가 다항로그 임계값 이상일 때.
- 이 알고리즘은 강제 탐색이 있는 정책 반복의 모델 프리 적응이며, 과거의 평균 Q-함수들을 이용한 Follow-the-Leader 스타일 업데이트를 포함한다.
- 가치 함수 H와 상태-액션 가치 G는 LSTD 유사 절차를 통해 추정되며, 유한 샘플 오차 경계와 안정성을 보장하는 프로젝션 단계가 있다.
- 수집 오차가 충분히 작을 때 모든 정책의 안정성이 유지되어 가치 함수와 상태가 한정된다.
- 실험적으로 MFLQ 변형이 표준 정책 반복보다 우수하고, 테스트된 LQ 시나리오에서 모델 기반 방법과 경쟁력을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.