Skip to main content
QUICK REVIEW

[논문 리뷰] Online Linear Quadratic Control

Alon Cohen, Avinatan Hassidim|arXiv (Cornell University)|2018. 06. 19.
Advanced Bandit Algorithms Research참고 문헌 9인용 수 19
한 줄 요약

이 논문은 알려진 노이즈가 있는 동역학과 적대적으로 변화하는 2차 비용을 갖는 선형 2차(LQ) 제어에 대해 처음으로 효율적인 온라인 학습 알고리즘을 제안하며, $O(\sqrt{T})$의 정책 손실을 달성한다. 이 방법은 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책에 해당하는 새로운 정수형 프로그래밍(SDP) 근사화를 사용하여, 온라인 경사 하강법 및 따라가지 않는 지도자 추종 알고리즘을 통해 실시간으로 최적의 정책을 추적할 수 있도록 한다.

ABSTRACT

We study the problem of controlling linear time-invariant systems with known noisy dynamics and adversarially chosen quadratic losses. We present the first efficient online learning algorithms in this setting that guarantee $O(\sqrt{T})$ regret under mild assumptions, where $T$ is the time horizon. Our algorithms rely on a novel SDP relaxation for the steady-state distribution of the system. Crucially, and in contrast to previously proposed relaxations, the feasible solutions of our SDP all correspond to "strongly stable" policies that mix exponentially fast to a steady state.

연구 동기 및 목표

  • 적대적으로 변화하는 2차 비용 행렬과 알려진 선형 동역학을 갖는 온라인 LQ 제어 문제를 다루는 것.
  • 시간 범위 $T$에서 비선형 정책 손실을 달성하는 효율적인 온라인 학습 알고리즘을 설계하는 것.
  • 새로운 SDP 근사화를 통해 빠른 혼합과 안정성 정책을 보장하는 것.
  • 제어를 안정 상태 분포에 대한 학습으로 모델링하여 온라인 학습과 제어 이론을 연결하는 것.
  • 시간에 따라 변화하는 전력 비용을 갖는 시뮬레이션된 데이터 센터 냉각 시스템에서의 실용적 성능을 입증하는 것.

제안 방법

  • 이dealized 온라인 학습 문제를 새로운 SDP 근사화를 사용하여 안정 상태 분포에 대한 기대 비용 최소화로 공식화한다.
  • SDP의 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책이 되도록 보장한다.
  • 연속된 제어 행렬 간의 연결을 위해 순차적 강한 안정성 성질을 갖는 온라인 경사 하강법(OGD)을 적용한다.
  • 정책 전환 수를 줄이고 정책 손실 한계를 향상시키기 위해 부드러운 재설정을 사용하는 따라가지 않는 지도자 추종(FLL)을 사용한다.
  • 제어 행렬에서 직접 정책을 유도하는 대신 예측된 안정 상태 분포에서 정책을 도출한다.
  • 관측된 상태 분포가 이상화된 설정에서의 분포를 잘 따라가며 낮은 정책 손실을 보장함을 증명한다.

실험 결과

연구 질문

  • RQ1적대적으로 변화하는 비용과 알려진 동역학을 갖는 LQ 제어에서 온라인 학습 알고리즘이 $O(\sqrt{T})$의 정책 손실을 달성할 수 있는가?
  • RQ2모든 타당한 해가 강한 안정성 정책을 제공하도록 하는 볼록 근사화는 어떻게 설계할 수 있는가?
  • RQ3시스템의 안정 상태 분포와 온라인 제어 알고리즘의 정책 손실 간의 관계는 무엇인가?
  • RQ4OGD와 FLL 기반의 온라인 알고리즘은 2차 비용을 갖는 연속 선형 시스템에 어떻게 적용할 수 있는가?
  • RQ5실제 제어 시나리오에서 온라인 알고리즘의 성능은 고정 정책과 히우리스틱 전략에 비해 어떻게 비교되는가?

주요 결과

  • 제안된 알고리즘은 어떤 고정된 강한 안정성 선형 정책과 비교해도 $O(\sqrt{T})$의 정책 손실을 달성한다.
  • 새로운 SDP 근사화는 모든 타당한 해가 지수적 혼합을 보이는 강한 안정성 정책에 해당함을 보장한다.
  • OGD 기반 알고리즘은 순차적 강한 안정성을 유지하여 관측된 상태 분포가 이상화된 설정의 분포를 잘 따라간다.
  • FLL 기반 알고리즘은 $O(\sqrt{T})$의 예상 정책 전환 수와 $O(\sqrt{T})$의 정책 손실을 달성한다.
  • 시간에 따라 변화하는 비용을 갖는 시뮬레이션된 데이터 센터 냉각 시스템에서의 실험 결과, FLL의 성능은 고정 최적 정책에 가까워지고 균일 분포 비용 상황에서 '최근 전략'을 능가한다.
  • FLL에서의 부드러운 재설정은 급격한 전환을 방지하여 실용적 성능을 향상시키며, 경험적 정책 손실이 빠르게 최적 수준에 수렴한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.