Skip to main content
QUICK REVIEW

[논문 리뷰] More Adaptive Algorithms for Adversarial Bandits

Chen-Yu Wei, Haipeng Luo|arXiv (Cornell University)|2018. 01. 10.
Advanced Bandit Algorithms Research인용 수 40
한 줄 요약

Broad-OMD를 도입합니다. 이는 적대적 다-팔 밴딧과 조합형 세미-밴딧에 대해 경계-정규화된 유연한 온라인 미러 디센트 알고리즘으로, 다양한 구현에서 데이터 의존적 regret 경계와 몇 가지 매개변수-프리 변형을 제공합니다.

ABSTRACT

We develop a novel and generic algorithm for the adversarial multi-armed bandit problem (or more generally the combinatorial semi-bandit problem). When instantiated differently, our algorithm achieves various new data-dependent regret bounds improving previous work. Examples include: 1) a regret bound depending on the variance of only the best arm; 2) a regret bound depending on the first-order path-length of only the best arm; 3) a regret bound depending on the sum of first-order path-lengths of all arms as well as an important negative term, which together lead to faster convergence rates for some normal form games with partial feedback; 4) a regret bound that simultaneously implies small regret when the best arm has small loss and logarithmic regret when there exists an arm whose expected loss is always smaller than those of others by a fixed gap (e.g. the classic i.i.d. setting). In some cases, such as the last two results, our algorithm is completely parameter-free. The main idea of our algorithm is to apply the optimism and adaptivity techniques to the well-known Online Mirror Descent framework with a special log-barrier regularizer. The challenges are to come up with appropriate optimistic predictions and correction terms in this framework. Some of our results also crucially rely on using a sophisticated increasing learning rate schedule.

연구 동기 및 목표

  • 데이터 특성에 적응하는 적대적 밴딧과 세미-밴딧용 새롭고 일반적인 알고리즘을 개발한다.
  • 다양한 환경에서 기존 연구를 개선할 수 있는 다수의 데이터 의존적 regret 경계를 유도한다.
  • 낙관성, 적응성, 로그-장벽 정규화, 증가하는 학습률이 이러한 경계를 가능하게 하는 방식을 보여준다.
  • 여러 결과에서 매개변수-프리 변형을 제공하고 MAB 및 세미-밴딧 설정에서의 실용적 구현을 분석한다.

제안 방법

  • Broad-OMD를 제안한다. 이는 액션 집합의 볼록궤도에서 로그-장벽 정규화를 사용하는 Online Mirror Descent 알고리즘이다.
  • 손실 벡터에 낙관적 예측과 적응 보정 항을 포함시켜 데이터 의존적 경계를 달성한다.
  • 시간에 따라 변하는 정규화와 증가하는 학습률 스케줄을 사용하여 경로 길이 기반의 보장을 얻는다.
  • 다른 구성(옵션 I 및 II) 및 m_t, hat{l}_t, eta_t의 다양한 선택에 대한 regret 경계를 도출한다.
  • 필요시 숨은 양을 추정하기 위해 저장소 샘플링(reservoir sampling)과 균일 탐색을 사용한다(매개변수-프리 변형용).
  • 일반 프레임워크를 MAB 및 세미-밴딧 설정에 특화시켜 구체적인 적응적 경계를 얻는다.

실험 결과

연구 질문

  • RQ1단일의 일반 알고리즘(Broad-OMD)이 적대적 밴딧 및 세미-밴딧에서 여러 데이터 의존적 regret 경계를 산출할 수 있는가?
  • RQ2낙관성, 적응성, 로그-장벽 정규화, 증가하는 학습률이 개선되거나 매개변수-프리 regret 보장에 어떻게 기여하는가?
  • RQ3MAB/세미-밴딧 설정에서 이러한 경계들을 이끄는 구체적인 데이터 의존적 양들(예: 최적 팔의 분산, 경로 길이)은 무엇인가?
  • RQ4이러한 경계들이 밴딧 피드백 하의 게임 이론적 시나리오에서 수렴의 실용적 개선으로 이어질 수 있는가?

주요 결과

  • 일반적인 Broad-OMD 프레임워크는 구현에 따라 최적 팔의 분산 및 일차 경로 길이 경계 등 다양한 데이터 의존적 regret 경계를 달성한다.
  • 낙관적 예측과 적응 보정 항이 있는 Online Mirror Descent 내에서 로그-장벽 정규화를 사용하면 적대적 밴딧 및 세미-밴딧에서 regret 보장을 얻는다.
  • 필요시 숨은 양을 추정하기 위해 더블링 트릭과 저장소 샘플링을 통해 매개변수-프리 변형을 수용한다.
  • 경로 길이 기반 경계와 작은 손실형 경계를 얻고, 밴딧 피드백이 있는 일부 게임 수행 설정에서 더 빠른 수렴을 가능하게 하는 음수 항이 있다.
  • 이 접근법은 비교적 간단하고 모듈식 분석으로 적응형 온라인 학습 기법을 세미-밴딧 설정에 통합하고 확장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.