QUICK REVIEW

[논문 리뷰] Thompson Sampling for Linear-Quadratic Control Problems

Marc Abeille, Alessandro Lazaric|arXiv (Cornell University)|2017. 03. 27.

Advanced Bandit Algorithms Research참고 문헌 12인용 수 30

한 줄 요약

이 논문은 진정한 시스템 파라미터가 고정되어 있지만 알려져 있지 않은 비모수적 설정에서 선형-이차(LQ) 제어 문제에 대해 톰슨 샘플링(TS)을 분석한다. TS는 밴딧 문제에서 성공을 거두었지만, 저자들은 정책 전환 빈도와 낙관적 샘플링 사이의 상충 관계로 인해 TS가 $O(T^{2/3})$의 리그레트를 기록함을 보여주며, 이는 LQ 제어에서 낙관적 불확실성 대비 전략(OFU)의 $O(\sqrt{T})$ 리그레트보다 훨씬 열 劣하다.

ABSTRACT

We consider the exploration-exploitation tradeoff in linear quadratic (LQ) control problems, where the state dynamics is linear and the cost function is quadratic in states and controls. We analyze the regret of Thompson sampling (TS) (a.k.a. posterior-sampling for reinforcement learning) in the frequentist setting, i.e., when the parameters characterizing the LQ dynamics are fixed. Despite the empirical and theoretical success in a wide range of problems from multi-armed bandit to linear bandit, we show that when studying the frequentist regret TS in control problems, we need to trade-off the frequency of sampling optimistic parameters and the frequency of switches in the control policy. This results in an overall regret of $O(T^{2/3})$, which is significantly worse than the regret $O(\sqrt{T})$ achieved by the optimism-in-face-of-uncertainty algorithm in LQ control problems.

연구 동기 및 목표

진정한 시스템 파라미터가 고정되어 있으며 사전 분포로부터 확률적으로 추출되지 않는 선형-이차(LQ) 제어 문제에서 톰슨 샘플링(TS)의 빈도주의 리그레트를 분석하는 것.
LQ 제어에 대한 TS에서 정책 전환 빈도와 낙관적 시스템 파라미터 샘플링 빈도 사이의 상충 관계를 규명하고 수식화하는 것.
사전 분포를 가정하지 않는 빈도주의 설정에서 LQ 시스템에 대한 TS의 리그레트 한계를 설정하는 것.
기존 선형 밴딧 또는 베이지안 LQ 설정에서의 TS 분석이 빈도주의 LQ 제어 사례로 확장되지 않는다는 것을 보여주는 것.
동일한 설정에서 $O(\sqrt{T})$ 리그레트를 달성하는 낙관적 불확실성 대비 전략(OFU)과의 성능 비교를 수행하는 것.

제안 방법

정estimated 동역학 및 비용 행렬에 대한 사후 분포에서 시스템 파라미터를 샘플링하여 TS를 LQ 제어에 적응시킴.
정규화된 최소 제곱 추정을 통해 시간이 지남에 따라 파라미터 신뢰도를 갱신하고, 안정성을 확보하기 위해 농도 불등식을 활용함.
시간 범위 또는 결정적 정책 전환 트리거에 기반한 종료 조건을 갖는 에피소드 기반 제어를 도입하여 정책 전환 빈도를 관리함.
리그레트를 직접 제어 행동과 연결하는 새로운 증명 기법을 도입하여, 마틴게일 추론 및 고확률 사건 분석을 활용함.
리그레트를 파라미터 추정 오차, 정책 전환 비용, 낙관적 샘플링 확률과 관련된 구성요소로 분해함.
정책 전환 비용을 최소화하고 낙관적 샘플링 빈도를 극대화하기 위해 에피소드 길이 $\tau$를 최적화함으로써 $\tau = O(T^{1/3})$를 도출함.

실험 결과

연구 질문

RQ1진정한 파라미터가 고정되어 있을 때 선형-이차 제어 문제에서 톰슨 샘플링의 빈도주의 리그레트는 얼마인가요?
RQ2TS는 다른 강화학습 설정에서는 성공했지만, LQ 제어에서는 왜 낙관적 불확실성 대비 전략(OFU)보다 성능이 열 劣한가요?
RQ3TS의 LQ 제어 성능을 좌우하는 상충 관계는 무엇이며, 이는 리그레트 한계에 어떻게 영향을 미치나요?
RQ4기존의 베이지안 또는 선형 밴딧 설정에서의 TS 리그레트 분석은 빈도주의 LQ 제어 설정으로 확장될 수 있나요?
RQ5LQ 제어에서 TS의 $O(T^{2/3})$ 리그레트는 메서드의 본질적 한계인가요, 아니면 다른 설계로 개선될 수 있나요?

주요 결과

일차원 사례(n=d=1)에서 선형-이차 제어 문제에 대한 톰슨 샘플링의 빈도주의 리그레트는 $O(T^{2/3})$로 한정됨.
$O(T^{2/3})$ 리그레트는 낙관적 파라미터 샘플링과 정책 전환 빈도를 최소화하는 데 갈등하는 근본적인 상충 관계에서 기인하며, 각 전환 시 리그레트가 증가함.
동일한 설정에서 OFU-LQ 알고리즘이 달성하는 $O(\sqrt{T})$ 리그레트와 대비하여, TS는 이 상충 관계로 인해 훨씬 높은 리그레트를 기록함.
기존 선형 밴딧에서의 빈도주의 리그레트 한계 분석이 LQ 제어로 일반화되지 않는다는 것이 분석을 통해 드러남. 이는 제어 정책의 구조와 샘플된 동역학에 대한 의존성 때문임.
증명 기법은 새로워서 리그레트를 직접 TS 하에서 실행된 제어 시퀀스와 연결하며, 마틴게일 농도 및 고확률 사건 분석을 통해 추정 오차를 제어함.
최종 리그레트 한계는 에피소드 길이 $\tau = O(T^{1/3})$로 설정함으로써 최적화되며, 이는 낙관적 샘플링과 정책 전환 비용을 균형 잡는 데 기여함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.