[논문 리뷰] Online Control with Adversarial Disturbances
논문은 적대적 교란이 있는 선형 동역학 시스템에 대해 효율적인 온라인 제어 알고리즘을 제시하며, 일반 볼록 비용에 대해 최적에 가까운 선형 제어기 대비 후회(O(sqrt(T)))를 달성한다.
We study the control of a linear dynamical system with adversarial disturbances (as opposed to statistical noise). The objective we consider is one of regret: we desire an online control procedure that can do nearly as well as that of a procedure that has full knowledge of the disturbances in hindsight. Our main result is an efficient algorithm that provides nearly tight regret bounds for this problem. From a technical standpoint, this work generalizes upon previous work in two main aspects: our model allows for adversarial noise in the dynamics, and allows for general convex costs.
연구 동기 및 목표
- 독립 동일 분포(i.i.d.) 노이즈를 넘어서는 적대적 교란하에서 견고한 제어를 동기화한다.
- 최고의 선형 제어기 대비 후회를 최소화하기 위한 온라인 학습 프레임워크를 개발한다.
- 제곱 비용에 국한되지 않고 일반 볼록 손실 함수를 다룬다.
- 계산적으로 효율적이며 보장된 후회 한계를 갖는 알고리즘을 제시한다.
제안 방법
- 과거 교란의 선형 변환에 고정된 선형 항을 더한 형태로 행동을 표현하는 disturbance-action 정책 클래스를 도입한다.
- 자르기 수평선 H를 통해 메모리를 갖는 온라인 볼록 최적화로 제어 문제를 축소한다.
- 문제의 볼록 완화 내에서 정책 매개변수에 대해 온라인 그래디언트 하강을 적용한다.
- 메모리를 갖는 OCO의 후회 경계를 활용하여 정책 후회를 한정한다.
- 이상화된 비용 f_t가 실제 비용 c_t를 유한한 오차항으로 근사한다고 보인다.
실험 결과
연구 질문
- RQ1교란 기반 정책을 활용한 온라인 학습이 적대적 교란 하에서 최고의 강하게 안정 선형 제어기에 대해 sublinear 후회를 달성할 수 있는가?
- RQ2일반 볼록 비용이 2차 비용을 넘는 보정된 후회 보장을 갖는 효율적인 온라인 제어 알고리즘을 허용하는가?
- RQ3계산 효율성을 유지하면서 적대적 교란이 상태 진화와 비용에 미치는 영향을 어떻게 한정하는가?
- RQ4표현력과 성능 측면에서 disturbance-action 정책 클래스와 전통적인 선형 제어기 사이의 관계는 무엇인가?
주요 결과
- 제안된 알고리즘은 최고 강하게 안정한 선형 제어기에 대해 후회 O(GW^2 sqrt(T) log(T))를 달성한다.
- 후회 경계는 제한된 적대적 교란 하에서 및 임의의 볼록 손실 함수 수열에 대해 성립한다.
- 강하게 안정한 시스템의 임의의 고정 선형 정책을 나타내기에 disturbance-action 정책이 충분하다.
- 본 방법은 기억 기반 손실에 대한 온라인 그래디언트 하강으로 축약되며 f_t와 c_t 사이의 근사 오차에 대한 증명 가능한 한계를 보유한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.