Skip to main content
QUICK REVIEW

[논문 리뷰] Online Control with Adversarial Disturbances

Naman Agarwal, Brian Bullins|arXiv (Cornell University)|2019. 02. 23.
Advanced Bandit Algorithms Research인용 수 61
한 줄 요약

논문은 적대적 교란이 있는 선형 동역학 시스템에 대해 효율적인 온라인 제어 알고리즘을 제시하며, 일반 볼록 비용에 대해 최적에 가까운 선형 제어기 대비 후회(O(sqrt(T)))를 달성한다.

ABSTRACT

We study the control of a linear dynamical system with adversarial disturbances (as opposed to statistical noise). The objective we consider is one of regret: we desire an online control procedure that can do nearly as well as that of a procedure that has full knowledge of the disturbances in hindsight. Our main result is an efficient algorithm that provides nearly tight regret bounds for this problem. From a technical standpoint, this work generalizes upon previous work in two main aspects: our model allows for adversarial noise in the dynamics, and allows for general convex costs.

연구 동기 및 목표

  • 독립 동일 분포(i.i.d.) 노이즈를 넘어서는 적대적 교란하에서 견고한 제어를 동기화한다.
  • 최고의 선형 제어기 대비 후회를 최소화하기 위한 온라인 학습 프레임워크를 개발한다.
  • 제곱 비용에 국한되지 않고 일반 볼록 손실 함수를 다룬다.
  • 계산적으로 효율적이며 보장된 후회 한계를 갖는 알고리즘을 제시한다.

제안 방법

  • 과거 교란의 선형 변환에 고정된 선형 항을 더한 형태로 행동을 표현하는 disturbance-action 정책 클래스를 도입한다.
  • 자르기 수평선 H를 통해 메모리를 갖는 온라인 볼록 최적화로 제어 문제를 축소한다.
  • 문제의 볼록 완화 내에서 정책 매개변수에 대해 온라인 그래디언트 하강을 적용한다.
  • 메모리를 갖는 OCO의 후회 경계를 활용하여 정책 후회를 한정한다.
  • 이상화된 비용 f_t가 실제 비용 c_t를 유한한 오차항으로 근사한다고 보인다.

실험 결과

연구 질문

  • RQ1교란 기반 정책을 활용한 온라인 학습이 적대적 교란 하에서 최고의 강하게 안정 선형 제어기에 대해 sublinear 후회를 달성할 수 있는가?
  • RQ2일반 볼록 비용이 2차 비용을 넘는 보정된 후회 보장을 갖는 효율적인 온라인 제어 알고리즘을 허용하는가?
  • RQ3계산 효율성을 유지하면서 적대적 교란이 상태 진화와 비용에 미치는 영향을 어떻게 한정하는가?
  • RQ4표현력과 성능 측면에서 disturbance-action 정책 클래스와 전통적인 선형 제어기 사이의 관계는 무엇인가?

주요 결과

  • 제안된 알고리즘은 최고 강하게 안정한 선형 제어기에 대해 후회 O(GW^2 sqrt(T) log(T))를 달성한다.
  • 후회 경계는 제한된 적대적 교란 하에서 및 임의의 볼록 손실 함수 수열에 대해 성립한다.
  • 강하게 안정한 시스템의 임의의 고정 선형 정책을 나타내기에 disturbance-action 정책이 충분하다.
  • 본 방법은 기억 기반 손실에 대한 온라인 그래디언트 하강으로 축약되며 f_t와 c_t 사이의 근사 오차에 대한 증명 가능한 한계를 보유한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.