QUICK REVIEW

[논문 리뷰] Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

Chung‐Wei Lee, Haipeng Luo|arXiv (Cornell University)|2020. 06. 14.

Advanced Bandit Algorithms Research인용 수 12

한 줄 요약

이 논문은 비대칭 밴딧과 MDPs에서 고확률적 손실 한계를 얻기 위한 새로운이고 단순한 접근법을 제시한다. 비편향 추정기와 증가하는 학습률, 로그로 균일한 자기일관성 장벽을 사용한다. 이는 열린 문제를 해결하는 데이터에 의존하는 손실 한계를 달성하며, 비대칭 선형 밴딧과 마르코프 결정 과정에서 처음으로 효율적이고 고확률적 소손 한계를 제공한다.

ABSTRACT

We develop a new approach to obtaining high probability regret bounds for online learning with bandit feedback against an adaptive adversary. While existing approaches all require carefully constructing optimistic and biased loss estimators, our approach uses standard unbiased estimators and relies on a simple increasing learning rate schedule, together with the help of logarithmically homogeneous self-concordant barriers and a strengthened Freedman's inequality. Besides its simplicity, our approach enjoys several advantages. First, the obtained high-probability regret bounds are data-dependent and could be much smaller than the worst-case bounds, which resolves an open problem asked by Neu (2015). Second, resolving another open problem of Bartlett et al. (2008) and Abernethy and Rakhlin (2009), our approach leads to the first general and efficient algorithm with a high-probability regret bound for adversarial linear bandits, while previous methods are either inefficient or only applicable to specific action sets. Finally, our approach can also be applied to learning adversarial Markov Decision Processes and provides the first algorithm with a high-probability small-loss bound for this problem.

연구 동기 및 목표

Neu(2015)가 제기한 비대칭 밴딧에서 데이터에 의존하는 고확률적 손실 한계를 확보하는 열린 문제를 해결한다.
Bartlett 등(2008)과 Abernethy, Rakhlin(2009)이 제기한 비대칭 선형 밴딧에서 효율적이고 고확률적 손실 한계를 달성하는 열린 문제를 해결한다.
비대칭 마르코프 결정 과정(MDPs)으로 프레임워크를 확장하고, 이 설정에 대해 처음으로 고확률적 소손 한계를 제공한다.
복잡한 편향 또는 낙관적 손실 추정기의 필요성을 피하는 일반적이고 효율적인 알고리즘적 접근법을 개발한다.
데이터에 의존하는 성질을 활용하여 최악의 경우 한계보다 더 날카롭고 적응적인 이론적 보장을 제공한다.

제안 방법

복잡한 편향 또는 낙관적 추정기를 설계하는 대신 표준 비편향 손실 추정기를 사용하여 설계 및 분석을 단순화한다.
단순한 증가하는 학습률 스케줄을 사용하여 온라인 업데이트에서 적응성과 분산 제어를 향상시킨다.
최적화 과정에서 강한 농도 성질을 보장하기 위해 로그로 균일한 자기일관성 장벽을 활용한다.
비대칭 피드백 하에서 고확률적 한계를 유도하기 위해 프리드먼 부등식의 강화된 형태를 적용한다.
위 요소들을 통합하여 밴딧 피드백 및 MDP 설정에 모두 적용 가능한 유일한 프레임워크를 구성한다.
비용이 많이 드는 투영이나 복잡한 추정 기법을 피하여 알고리즘이 계산적으로 효율적임을 확보한다.

실험 결과

연구 질문

RQ1비편향 또는 낙관적 추정기를 사용하지 않고도 비대칭 밴딧에서 고확률적 손실 한계를 데이터에 의존적으로 만들 수 있는가?
RQ2일반적인 행동 집합에서 비대칭 선형 밴딧에 대해 효율적인 알고리즘으로 고확률적 손실 한계를 달성하는 것이 가능한가?
RQ3비대칭 MDPs로 프레임워크를 확장하여 이 설정에 대해 처음으로 고확률적 소손 한계를 달성할 수 있는가?
RQ4증가하는 학습률 스케줄이 자기일관성 장벽과 어떻게 상호작용하여 농도와 손실 한계를 향상시키는가?
RQ5비편향 추정기를 사용할 경우 최악의 경우 보장보다 더 날카롭고 데이터에 의존적인 손실 한계를 얼마나 잘 달성할 수 있는가?

주요 결과

제안된 방법은 최악의 경우 한계보다 훨씬 작은 데이터에 의존하는 고확률적 손실 한계를 달성하여 Neu(2015)에서 제기한 열린 문제를 해결한다.
비대칭 선형 밴딧에 대해 처음으로 일반적이고 효율적인 알고리즘을 제공하며, 이전 방법들이 효율적이거나 특정 행동 집합에 국한된 한계를 넘어선다.
프레임워크는 비대칭 MDPs로 성공적으로 확장되어 이 설정에 대해 처음으로 고확률적 소손 한계를 달성한다.
비편향 추정기와 단순한 증가하는 학습률을 사용함으로써 복잡한 편향 보정 또는 낙관적 추정의 필요성을 피하여 구현과 분석을 단순화한다.
로그로 균일한 자기일관성 장벽과 강화된 프리드먼 부등식의 사용은 더 날카운 농도와 향상된 손실 보장을 가능하게 한다.
이론적 결과는 손실 한계가 데이터에 따라 적응함을 보여주며, 최악의 경우 보장 없이도 유리한 데이터 환경에서 더 나은 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.