QUICK REVIEW

[논문 리뷰] Logarithmic Regret for Online Control

Naman Agarwal, Elad Hazan|arXiv (Cornell University)|2019. 09. 11.

Advanced Bandit Algorithms Research인용 수 51

한 줄 요약

논문은 온라인 제어에서 소음이 있는 선형 동적 시스템에 대해 적대적 강凸 비용을 사용하고 온라인 그래디언트 디센트 및 온라인 내추럴 그래디언트 방법을 이용하여 poly-logarithmic 후회(bound)를 증명한다( O(log^7 T ) ).

ABSTRACT

We study optimal regret bounds for control in linear dynamical systems under adversarially changing strongly convex cost functions, given the knowledge of transition dynamics. This includes several well studied and fundamental frameworks such as the Kalman filter and the linear quadratic regulator. State of the art methods achieve regret which scales as $O(\sqrt{T})$, where $T$ is the time horizon. We show that the optimal regret in this setting can be significantly smaller, scaling as $O( ext{poly}(\log T))$. This regret bound is achieved by two different efficient iterative methods, online gradient descent and online natural gradient.

연구 동기 및 목표

dynamics 를 알고 있을 때 적대적이고 강凸 비용 아래에서 online control의 sqrt(T)보다 훨씬 작은 후회 추구를 동기화한다.
노이즈가 있는 선형 동적 시스템에서 poly-logarithmic 후회를 달성하는 효율적 알고리즘을 개발한다.
이차 비용을 넘어 일반적으로 강凸 손실에 대한 후회 보장을 확장한다.
구조화된 컨트롤러 클래스가 강凸성 및 다루기 쉬운 최적화를 가능하게 하는 방식으로 특성화한다.

제안 방법

u_t = -K x_t + sum_{i=1}^H M^{[i-1]} w_{t-i} 와 같은 고정 불안정화 항을 갖는 교란-행위 정책으로 제어를 형식화한다.
과거 교란을 바탕으로 한 대리 상태와 대리 비용 f_t를 도입하여 후회를 분석한다.
메모리를 가진 온라인 볼록 최적화(OC0 with memory)를 대리 손실에 적용하고, 가정하에 컨트롤러 매개변수에 대해 강凸임을 보인다.
두 가지 반복 업데이트를 제공한다: Online Gradient Descent (OGD) 및 preconditioner (E[J^T J])^{-1}가 있는 Online Natural Gradient (ONG).
대입 의존적 및 대입 무관한 후회 경계를 도출하고, 대각형 강안정성(kappa, gamma) 및 잡음의 한계에서 T에 대해 poly-logarithmic 후회를 보인다.

실험 결과

연구 질문

RQ1노이즈가 있는 LDS에서 적대적 강凸 손실에 대해 로그 또는 poly-logarithmic 후회가 온라인 제어에 대해 달성될 수 있는가?
RQ2대리 손실이 컨트롤러 매개변수에 대해 강凸이 되는 시스템 및 비용 가정은 무엇인가?
RQ3OGD와 ONG는 이 제어 설정에서 후회와 인스턴스 난이도(mu)에 따른 의존성 측면에서 어떻게 비교되는가?
RQ4교란 기억 및 대각형 강안정성이 빠른 후회율 달성에 미치는 영향은 무엇인가?

주요 결과

Online Gradient Descent는 후회 경계 tilde O( G^2 W^4 / (alpha sigma^2) * log^7(T) ).
Online Natural Gradient는 후회 경계 tilde O( G W^2 / (alpha mu) * log^7(T) ), mu는 Jacobian Gram 행렬로 정의된다.
Corollary: 구대칭 방식의 제곱 비용의 경우, ONG는 tilde O( beta^2 W^2 / alpha * log^7(T) ) 후회를 sigma^2 최소 고유값에 의존하지 않고도 달성한다.
해석은 대리 비용 f_t가 c_t의 alpha-강 convex성 및 K의 대각형 강 안정성 하에서 M에 대해 강凸임을 보여 빠른 속도를 가능하게 한다.
두 가지 알고리즘 변형은 계산 비용과 인스턴스 의존적 성능 보장의 절충을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.