QUICK REVIEW

[논문 리뷰] Learning-based Control of Unknown Linear Systems with Thompson Sampling

Yi Ouyang, Mukul Gagrani|arXiv (Cornell University)|2017. 09. 12.

Advanced Bandit Algorithms Research참고 문헌 5인용 수 39

한 줄 요약

이 논문은 알려지지 않은 선형-포물선(LQ) 시스템을 위한 학습 기반 제어 알고리즘인 동적 에피소드를 적용한 톰슨 샘플링(TSDE)을 제안한다. 두 가지 동적 에피소드 종료 기준—성장률 제어와 공분산 행렬식 감쇠—를 사용함으로써 TSDE는 $ ilde{O}( ext{sqrt}{T})$의 베이지안 리그레트 경계를 달성하며, 이는 LQ 제어 문제에 대해 처음으로 근사 최적의 결과이며, 재초기화를 통해 시간에 따라 변하는 파ameter를 다룰 수 있다.

ABSTRACT

We propose a Thompson sampling-based learning algorithm for the Linear Quadratic (LQ) control problem with unknown system parameters. The algorithm is called Thompson sampling with dynamic episodes (TSDE) where two stopping criteria determine the lengths of the dynamic episodes in Thompson sampling. The first stopping criterion controls the growth rate of episode length. The second stopping criterion is triggered when the determinant of the sample covariance matrix is less than half of the previous value. We show under some conditions on the prior distribution that the expected (Bayesian) regret of TSDE accumulated up to time T is bounded by O(\sqrt{T}). Here O(.) hides constants and logarithmic factors. This is the first O(\sqrt{T} ) bound on expected regret of learning in LQ control. By introducing a reinitialization schedule, we also show that the algorithm is robust to time-varying drift in model parameters. Numerical simulations are provided to illustrate the performance of TSDE.

연구 동기 및 목표

기존의 적응 제어가 비점근적 보장을 제공하지 못하는, 알려지지 않은 파ameter를 갖는 스토케스틱 선형 시스템에서 최적의 제어 정책을 학습하는 데 도전한다.
학습 기반 제어에서의 이용-탐색 트레이드오프를 극복하기 위해, 탐색과 이용을 균형 잡고 계산 효율적인 알고리즘을 설계한다.
베이지안 리그레트 문제에서 $\tilde{O}(\sqrt{T})$의 근사 최적 리그레트 경계를 달성하여, 정보 이론적 하한선과 로그 인자만을 제외하고 일치시킨다.
재초기화 스케줄을 도입하여 시간에 따라 변하는 파ameter를 다룰 수 있도록 알고리즘을 확장함으로써 파ameter 이격에 대한 강건성을 확보한다.
시뮬레이션을 통해 TSDE가 안정성과 비안정성, 비정상적인 동역학 조건 하에서도 스칼라 및 다차원 시스템에서 선형 이하의 리그레트를 달성함을 보여준다.

제안 방법

두 가지 기준에 기반해 에피소드를 종료하는 동적 에피소드를 갖는 톰슨 샘플링(TSDE)을 제안한다: (1) 에피소드 길이의 성장률을 통제하고, (2) 표본 공분산 행렬의 행렬식이 이전 값의 절반 이하로 떨어지면 더블링 트릭을 시행한다.
각 에피소드의 시작 시, 후행 분포에서 시스템 파ameter를 샘플링하여 낙관적인 추정치를 생성함으로써, 복잡한 최적화 문제를 해결하지 않고도 탐색을 가능하게 한다.
수집된 상태 및 제어 데이터를 이용해 알려지지 않은 시스템 파ameter (A, B)의 후행 분포를 유지하고 개선하기 위해 베이지안 업데이트 프레임워크를 사용한다.
시간에 따라 변하는 파ameter를 다루기 위해 TSDE-TV에 재초기화 스케줄을 도입하여, 시스템 동역학의 변화를 추적하고 선형 이하의 리그레트를 유지할 수 있도록 한다.
제시된 사전 가정 하에 후행 분포의 성질과 농도 불등식을 활용해 LQ 제어 문제의 리그레트 경계를 유도한다.
OFU 기반 방법의 계산 부담을 피하면서도 유사한 리그레트 성능을 달성하기 위해 동적 에피소드 설계를 적용한다.

실험 결과

연구 질문

RQ1알려지지 않은 파ameter를 갖는 LQ 제어 문제에 대해 톰슨 샘플링을 효과적으로 적용하여 근사 최적 리그레트 경계를 달성할 수 있는가?
RQ2톰슨 샘플링이 LQ 제어에서 탐색과 이용을 균형 잡고 계산 효율성을 유지하기 위해 어떤 에피소드 스케줄링 메커니즘이 필요한가?
RQ3시간에 따라 변하는 시스템 파ameter 조건 하에서도 알고리즘이 선형 이하의 리그레트를 유지할 수 있는가? 만약 가능하다면 어떤 조건에서 가능한가?
RQ4리그레트와 계산 비용 측면에서 TSDE는 기존의 OFU 기반 알고리즘과 비교해 어떻게 성능가능한가?
RQ5파ameter 분포에 대한 사전 가정이 완화될 경우 알고리즘이 얼마나 강건하게 유지되는가?

주요 결과

TSDE는 $ ilde{O}( ext{sqrt}{T})$의 베이지안 리그레트 경계를 달성하였으며, 이는 학습 기반 LQ 제어 문제에 대해 처음으로 근사 최적의 결과이며, 알려진 하한선과 로그 인자만을 제외하고 일치한다.
알고리즘은 안정성과 비안정성 모두를 갖는 스칼라 및 다차원 LQ 시스템을 성공적으로 제어하며, 리그레트가 $ ilde{O}( ext{sqrt}{T})$로 선형 이하로 증가함을 시뮬레이션에서 입증하였다.
가정 2(사전 분포에 대한)가 위반되더라도(예: $\delta = 2$) TSDE는 여전히 선형 이하의 리그레트를 보이며, 이는 이론적 가정을 초월한 강건성을 시사한다.
시간에 따라 변하는 파ameter 조건 하에서 재초기화가 적용된 TSDE-TV 버전은 선형 이하의 누적 리그레트를 유지하며, 시간이 지남에 따라 단위 시간당 리그레트가 점차 감소한다.
TSDE-TV의 단위 시간당 리그레트는 점차 0으로 감소함을 확인하여, 파ameter 이격 조건 하에서도 알고리즘이 점차적으로 최적의 제어 정책을 학습함을 확인한다.
수치적 결과는 스칼라 및 다차원 시스템에서 리그레트 성장률이 이론적 $ ilde{O}( ext{sqrt}{T})$ 경계와 일치함을 확인하여 이론 분석의 타당성을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.