Skip to main content
QUICK REVIEW

[논문 리뷰] An Improved Parametrization and Analysis of the EXP3++ Algorithm for Stochastic and Adversarial Bandits

Yevgeny Seldin, Gábor Lugosi|arXiv (Cornell University)|2017. 02. 20.
Anomaly Detection Techniques and Applications인용 수 28
한 줄 요약

이 논문은 다수의 보상자가 있는 밴디트 문제를 위한 EXP3++ 알고리즘을 향상시키기 위해, 시간 수확의 (ln t)^3에서 (ln t)^2로의 의존도를 감소시키고 Δe^{1/Δ²} 순서의 바람직하지 않은 덧셈 항을 제거하는 새로운 갭 추정 전략을 도입한다. 적대적 환경에서의 위험도는 그대로 유지되어, 스토케스틱 및 적대적 환경 모두에서의 강건성을 유지한다.

ABSTRACT

We present a new strategy for gap estimation in randomized algorithms for multiarmed bandits and combine it with the EXP3++ algorithm of Seldin and Slivkins (2014). In the stochastic regime the strategy reduces dependence of regret on a time horizon from $(\ln t)^3$ to $(\ln t)^2$ and eliminates an additive factor of order $Δe^{1/Δ^2}$, where $Δ$ is the minimal gap of a problem instance. In the adversarial regime regret guarantee remains unchanged.

연구 동기 및 목표

  • EXP3++ 알고리즘의 스토케스틱 영역에서 시간 수확에 대한 비최적의 위험도 의존도를 해결하기 위해.
  • 이전 분석에서 나타나는 Δe^{1/Δ²} 순서의 덧셈 위험도 항을 제거하기 위해.
  • 스토케스틱 설정에서 성능을 향상시키면서도 동일한 적대적 위험도 보장을 유지하기 위해.
  • 스토케스틱 및 적대적 환경에 모두 적응하는 더 강건하고 효율적인 매개변수화를 개발하기 위해.

제안 방법

  • 관측된 보상에 기반해 탐색을 동적으로 조정하는 새로운 랜덤화 갭 추정 전략을 도입한다.
  • 새로운 갭 추정 전략을 EXP3++ 프레임워크와 결합하여 탐색과 이용의 균형을 개선한다.
  • 로그함수 의존도를 줄임으로써 스토케스틱 설정에서의 위험도 상한을 강화하는 정교한 분석 기법을 사용한다.
  • 집중 불등식과 정교한 마링갈라 추론을 사용하여 갭 추정의 분산과 편향을 제어한다.
  • 적대적 강건성을 유지하기 위해 원래의 EXP3++ 구조를 유지하면서도, 스토케스틱 효율성을 향상시키기 위해 탐색 구성 요소를 수정한다.
  • 사전 지식 없이도 최소 갭 Δ에 적응하는 새로운 매개변수화를 유도하여 확장성과 성능을 향상시킨다.

실험 결과

연구 질문

  • RQ1EXP3++의 스토케스틱 영역에서 시간 수확에 대한 위험도 의존도를 (ln t)^3에서 (ln t)^2로 감소시킬 수 있는가?
  • RQ2EXP3++의 스토케스틱 분석에서 Δe^{1/Δ²} 순서의 덧셈 위험도 항을 제거할 수 있는가?
  • RQ3개선된 매개변수화가 원래 EXP3++의 적대적 위험도 보장을 유지하는가?
  • RQ4새로운 갭 추정 전략은 스토케스틱 및 적대적 밴디트 설정 모두에서 성능을 어떻게 향상시키는가?

주요 결과

  • 스토케스틱 영역에서의 위험도는 O((ln t)^3)에서 O((ln t)^2)로 감소하여 점점 더 좋은 점근적 성능을 달성한다.
  • 스토케스틱 설정에서의 위험도 상한에서 문제를 일으키는 Δe^{1/Δ²} 순서의 덧셈 항이 완전히 제거된다.
  • 원래 EXP3++의 적대적 위험도 상한이 유지되어 비스토케스틱 환경에서의 강건성이 보장된다.
  • 새로운 갭 추정 전략은 더 강력한 농도 상한과 낮은 갭 상황에서의 더 효율적인 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.