QUICK REVIEW

[논문 리뷰] Model-Free Linear Quadratic Control via Reduction to Expert Prediction

Yasin Abbasi-Yadkori, Nevena Lazic|arXiv (Cornell University)|2018. 04. 17.

Advanced Bandit Algorithms Research인용 수 54

한 줄 요약

전문가-예측 축소를 이용한 정책 반복 유사 방식의 서브선형 후회를 갖는 적응 LQ 제어용 모델 프리 알고리즘.

ABSTRACT

Model-free approaches for reinforcement learning (RL) and continuous control find policies based only on past states and rewards, without fitting a model of the system dynamics. They are appealing as they are general purpose and easy to implement; however, they also come with fewer theoretical guarantees than model-based RL. In this work, we present a new model-free algorithm for controlling linear quadratic (LQ) systems, and show that its regret scales as $O(T^{ξ+2/3})$ for any small $ξ>0$ if time horizon satisfies $T>C^{1/ξ}$ for a constant $C$. The algorithm is based on a reduction of control of Markov decision processes to an expert prediction problem. In practice, it corresponds to a variant of policy iteration with forced exploration, where the policy in each phase is greedy with respect to the average of all previous value functions. This is the first model-free algorithm for adaptive control of LQ systems that provably achieves sublinear regret and has a polynomial computation cost. Empirically, our algorithm dramatically outperforms standard policy iteration, but performs worse than a model-based approach.

연구 동기 및 목표

LQ 설정에서 이론적 보장을 갖춘 연속 제어를 위한 모델 프리 RL의 동기를 부여한다.
적응 LQ 제어에서 서브선형 후회를 달성하는 모델 프리 알고리즘(MFLQ)을 개발한다.
추정 오차 하에서 후회 한계와 안정성을 보이는 유한 시간 해석을 제공한다.
MFLQ가 표준 정책 반복을 능가하고 실험적으로 모델 기반 성능에 근접함을 보여준다.

제안 방법

MDP 제어를 전문가 예측 문제로 축소하고, 과거 Q-함수의 평균에 기초한 탐욕 정책을 사용하는 Follow-the-Leader로 구현한다.
강제 탐색이 있는 정책 반복의 변형을 사용하고, 각 단계의 정책은 과거 가치 함수 추정의 평균에 대해 탐욕적이다.
상태 가치 함수 H를 이차 형태의 값을 갖는 최소자승 시간차(LSTD)로 추정하고 H ≽ M으로 프로젝션한다.
추정된 H와 수집된 데이터로 상태-액션 가치 함수 G를 추정하고, 데이터는 탐색 및 무작위 행동을 통해 수집한다.
다양한 데이터 수집 일정과 단계 길이를 갖는 두 가지 변형(MFLQv1 및 MFLQv2)을 제시하고, 후회 경계를 도출한다.
서브선형 후회를 증명한다: Regret_T ≤ C T^{2/3+ξ} for v1 and Regret_T ≤ C T^{3/4+ξ} for v2, for T large enough.

실험 결과

연구 질문

RQ1모델 프리 접근 방식의 적응 LQ 제어가 서브선형 후회를 달성할 수 있는가?
RQ2MD P 제어를 전문가 예측 문제로 축소하는 것이 LQ 설정에서 계산적으로 다루기 쉽고 보장이 좋은 정책을 가능하게 하는가?
RQ3이 맥락에서 가치 함수 및 정책 평가의 유한 시간 추정 보장은 무엇인가?
RQ4탐색 일정이 모델 프리 LQ 제어의 안정성 및 장기 성능에 어떤 영향을 미치는가?
RQ5MFLQ의 성능은 실험적으로 정책 반복 및 모델 기반 방법과 어떻게 비교되는가?

주요 결과

제안된 MFLQ 알고리즘은 평균 비용 LQ 설정에서 서브선형 후회를 달성한다: MFLQv1에서 O(T^{2/3+ξ}), MFLQv2에서 O(T^{3/4+ξ})이며, T가 다항로그 임계값 이상일 때.
이 알고리즘은 강제 탐색이 있는 정책 반복의 모델 프리 적응이며, 과거의 평균 Q-함수들을 이용한 Follow-the-Leader 스타일 업데이트를 포함한다.
가치 함수 H와 상태-액션 가치 G는 LSTD 유사 절차를 통해 추정되며, 유한 샘플 오차 경계와 안정성을 보장하는 프로젝션 단계가 있다.
수집 오차가 충분히 작을 때 모든 정책의 안정성이 유지되어 가치 함수와 상태가 한정된다.
실험적으로 MFLQ 변형이 표준 정책 반복보다 우수하고, 테스트된 LQ 시나리오에서 모델 기반 방법과 경쟁력을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.