QUICK REVIEW

[논문 리뷰] Online Linear Quadratic Control

Alon Cohen, Avinatan Hassidim|arXiv (Cornell University)|2018. 06. 19.

Advanced Bandit Algorithms Research참고 문헌 9인용 수 19

한 줄 요약

이 논문은 알려진 노이즈가 있는 동역학과 적대적으로 변화하는 2차 비용을 갖는 선형 2차(LQ) 제어에 대해 처음으로 효율적인 온라인 학습 알고리즘을 제안하며, $O(\sqrt{T})$의 정책 손실을 달성한다. 이 방법은 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책에 해당하는 새로운 정수형 프로그래밍(SDP) 근사화를 사용하여, 온라인 경사 하강법 및 따라가지 않는 지도자 추종 알고리즘을 통해 실시간으로 최적의 정책을 추적할 수 있도록 한다.

ABSTRACT

We study the problem of controlling linear time-invariant systems with known noisy dynamics and adversarially chosen quadratic losses. We present the first efficient online learning algorithms in this setting that guarantee $O(\sqrt{T})$ regret under mild assumptions, where $T$ is the time horizon. Our algorithms rely on a novel SDP relaxation for the steady-state distribution of the system. Crucially, and in contrast to previously proposed relaxations, the feasible solutions of our SDP all correspond to "strongly stable" policies that mix exponentially fast to a steady state.

연구 동기 및 목표

적대적으로 변화하는 2차 비용 행렬과 알려진 선형 동역학을 갖는 온라인 LQ 제어 문제를 다루는 것.
시간 범위 $T$에서 비선형 정책 손실을 달성하는 효율적인 온라인 학습 알고리즘을 설계하는 것.
새로운 SDP 근사화를 통해 빠른 혼합과 안정성 정책을 보장하는 것.
제어를 안정 상태 분포에 대한 학습으로 모델링하여 온라인 학습과 제어 이론을 연결하는 것.
시간에 따라 변화하는 전력 비용을 갖는 시뮬레이션된 데이터 센터 냉각 시스템에서의 실용적 성능을 입증하는 것.

제안 방법

이dealized 온라인 학습 문제를 새로운 SDP 근사화를 사용하여 안정 상태 분포에 대한 기대 비용 최소화로 공식화한다.
SDP의 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책이 되도록 보장한다.
연속된 제어 행렬 간의 연결을 위해 순차적 강한 안정성 성질을 갖는 온라인 경사 하강법(OGD)을 적용한다.
정책 전환 수를 줄이고 정책 손실 한계를 향상시키기 위해 부드러운 재설정을 사용하는 따라가지 않는 지도자 추종(FLL)을 사용한다.
제어 행렬에서 직접 정책을 유도하는 대신 예측된 안정 상태 분포에서 정책을 도출한다.
관측된 상태 분포가 이상화된 설정에서의 분포를 잘 따라가며 낮은 정책 손실을 보장함을 증명한다.

실험 결과

연구 질문

RQ1적대적으로 변화하는 비용과 알려진 동역학을 갖는 LQ 제어에서 온라인 학습 알고리즘이 $O(\sqrt{T})$의 정책 손실을 달성할 수 있는가?
RQ2모든 타당한 해가 강한 안정성 정책을 제공하도록 하는 볼록 근사화는 어떻게 설계할 수 있는가?
RQ3시스템의 안정 상태 분포와 온라인 제어 알고리즘의 정책 손실 간의 관계는 무엇인가?
RQ4OGD와 FLL 기반의 온라인 알고리즘은 2차 비용을 갖는 연속 선형 시스템에 어떻게 적용할 수 있는가?
RQ5실제 제어 시나리오에서 온라인 알고리즘의 성능은 고정 정책과 히우리스틱 전략에 비해 어떻게 비교되는가?

주요 결과

제안된 알고리즘은 어떤 고정된 강한 안정성 선형 정책과 비교해도 $O(\sqrt{T})$의 정책 손실을 달성한다.
새로운 SDP 근사화는 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책에 해당함을 보장한다.
OGD 기반 알고리즘은 순차적 강한 안정성을 유지하여 관측된 상태 분포가 이상화된 설정의 분포를 잘 따라간다.
FLL 기반 알고리즘은 $O(\sqrt{T})$의 예상 정책 전환 수와 $O(\sqrt{T})$의 정책 손실을 달성한다.
시간에 따라 변화하는 비용을 갖는 시뮬레이션된 데이터 센터 냉각 시스템에서의 실험 결과, FLL의 성능은 고정 최적 정책에 가까워지고 균일 분포 비용 상황에서 '최근 전략'을 능가한다.
FLL에서의 부드러운 재설정은 급격한 전환을 방지하여 실용적 성능을 향상시키며, 경험적 정책 손실이 빠르게 최적 수준에 수렴한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.