Skip to main content
QUICK REVIEW

[논문 리뷰] Weighted Linear Bandits for Non-Stationary Environments

Yoan Russac, Claire Vernade|arXiv (Cornell University)|2019. 09. 19.
Advanced Bandit Algorithms Research참고 문헌 1인용 수 56
한 줄 요약

논문은 비정상(non-stationary) 환경을 위한 할인 기반 선형 밴딧 알고리즘 D relax LinUCB를 도입하며, 새로운 가중 최소제곱 편차 경계와 d^{2/3} B_T^{1/3} T^{2/3}의 동적 후퇴가 느리게 변화하는 매개변수나 급격히 변화하는 매개변수에 적응함.

ABSTRACT

We consider a stochastic linear bandit model in which the available actions correspond to arbitrary context vectors whose associated rewards follow a non-stationary linear regression model. In this setting, the unknown regression parameter is allowed to vary in time. To address this problem, we propose D-LinUCB, a novel optimistic algorithm based on discounted linear regression, where exponential weights are used to smoothly forget the past. This involves studying the deviations of the sequential weighted least-squares estimator under generic assumptions. As a by-product, we obtain novel deviation results that can be used beyond non-stationary environments. We provide theoretical guarantees on the behavior of D-LinUCB in both slowly-varying and abruptly-changing environments. We obtain an upper bound on the dynamic regret that is of order d^{2/3} B\_T^{1/3}T^{2/3}, where B\_T is a measure of non-stationarity (d and T being, respectively, dimension and horizon). This rate is known to be optimal. We also illustrate the empirical performance of D-LinUCB and compare it with recently proposed alternatives in simulated environments.

연구 동기 및 목표

  • 선형 밴딧 보상에서의 비정상성 및 사용자 선호도 변화에 의해 동기부여됩니다.
  • 할인으로 가중된 순차적 편차 부등식을 확장합니다.
  • 느리게 변화하는 매개변수와 급격히 변화하는 매개변수를 모두 다루는 완전 재귀적 적응 알고리즘을 개발합니다.
  • 비정상성 하에서 제안된 알고리즘에 대한 이론적 후퇴 보장을 제공합니다.
  • 시뮬레이션 및 실제 데이터에 기반한 시나리오에서 경쟁 방법들과의 경험적 성능을 입증합니다.

제안 방법

  • D-rel LinUCB를 도입합니다. 이는 지수적 잊기(in exponential forgetting)를 기반으로 한 할인 가중 선형 회귀에 기반한 낙관적 알고리즘입니다.
  • 가중치 w_t와 정규화 항 bb_t를 사용하고 mu_t를 스케일 불변성(scale invariance)을 위해 lambda_t^2에 비례하도록 선택하여 가중 정규화 최소제곱 추정치(estimator)와 해당하는 신뢰 타원(confidence ellipsoids)을 정의합니다.
  • V_t와 3tilde{V}_t를 포함하는 가중 추정치의 최대 편차 부등식을 증명하고 분산 항에서 제곱된 가중치의 역할을 강조합니다.
  • 안정적인 신뢰 bound와 재귀 업데이트 규칙을 보장하기 위해 w_t = gamma^{-t}를 사용하고 정규화 lambda_t = gamma^{-t} lambda를 증가시키며 디스카운트를 적용합니다.
  • 느리게 변하는 환경과 급격하게 바뀌는 환경에 대해 편향-분산 분해 및 horizon-tuned 매개변수 D를 포함하는 통합적인 후퇴 분석을 도출합니다.

실험 결과

연구 질문

  • RQ1가중치가 있는 할인된 최소제곱을 순차적이고 비정상적인 선형 밴딧 설정에서 어떻게 분석할 수 있을까요?
  • RQ2지수적 망각으로 작동하는 낙관적 선형 밴딧 알고리즘이 varying non-stationarity 하에서 의미 있는 동적 후퇴 경계를 달성할 수 있을까요?
  • RQ3느리게 변화하는 환경 vs 급격히 변화하는 환경에서 D-rel LinUCB의 이론적 보장(편차 경계 및 후퇴)는 어떻게 되나요?
  • RQ4제안된 방법이 고차원 및 저차원 설정에서 Sliding-window 및 change-point-detection 기반 접근법과 비교하여 실험적으로 어떤 성능을 보이나요?

주요 결과

  • 본 논문은 일반 가중치 및 정규화에 대한 순차적 가중 최소제곱 추정기의 최대 편차 부등식을 제공합니다.
  • D-rel LinUCB는 LinUCB와 비슷한 계산 복잡도로 완전 재귀적이며, 비정상성에 적응하기 위해 할인(discounting)을 사용합니다.
  • 비정상 환경에서의 D-rel LinUCB의 후퇴 경계는 d^{2/3} B_T^{1/3} T^{2/3}의 차수로 표현됩니다.
  • Corollary: horizon T와 variation B_T의 함수로 gamma를 조정하면, 후퇴는 고확률로 점진적으로 O(d^{2/3} B_T^{1/3} T^{2/3})에 수렴하며 상수만 다르면 알려진 하한에 맞춥니다.
  • 실험적 결과는 D-rel LinUCB와 SW LinUCB가 급격한 변화와 느린 변동에 잘 적응하며 비정상 시나리오에서 비적응형 LinUCB보다 우수한 성능을 보임을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.