[논문 리뷰] Regret Analysis of Sleeping Competing Bandits
본 논문은 sleeping competing bandits를 정의하고, 후회 하한을 도출하며, 합리적 가정 하에서 서브선형의 플레이어-리그레트(sublinear player-regrets)를 달성하는 알고리즘(AC-UCB 및 AC-ETGS)을 제안하고, 팔의 수 K가 플레이어 수 N에 비해 커질 때 점근적 최적성을 달성함을 보인다.
The Competing Bandits framework is a recently emerging area that integrates multi-armed bandits in online learning with stable matching in game theory. While conventional models assume that all players and arms are constantly available, in real-world problems, their availability can vary arbitrarily over time. In this paper, we formulate this setting as Sleeping Competing Bandits. To analyze this problem, we naturally extend the regret definition used in existing competing bandits and derive regret bounds for the proposed model. We propose an algorithm that simultaneously achieves an asymptotic regret bound of $\mathrm{O}\left(NK\log T_{i}/Δ^2 ight)$ under reasonable assumptions, where $N$ is the number of players, $K$ is the number of arms, $T_{i}$ is the number of rounds of each player $p_i$, and $Δ$ is the minimum reward gap. We also provide a regret lower bound of $\mathrmΩ\left( N(K-N+1)\log T_{i}/Δ^2 ight)$ under the same assumptions. This implies that our algorithm is asymptotically optimal in the regime where the number of arms $K$ is relatively larger than the number of players $N$.
연구 동기 및 목표
- 일시적으로 사용 가능하지 않은 상태에서도 플레이어와 팔이 모두 존재하는 수면 경쟁 밴디트 설정을 형식화한다.
- 이 동적 양면 시장에서 플레이어-최적(플레이어-오피통) 및 플레이어-최악 안정 후회를 정의한다.
- 이 설정에서 모든 알고리즘에 대한 기본적인 후회 하한을 확립한다.
- sleeping 환경으로 확장된 UCB/ETGS를 이용한 중앙집중식 알고리즘을 개발하고 그 후회를 분석한다.
- 제안된 방법들이 점근적 최적성을 갖는 regime(예: K가 N에 비해 상대적으로 큰 경우)을 특징화한다.
제안 방법
- 플레이어와 팔의 가용성 변화가 있는 Sleeping Competing Bandits 모델을 정의한다.
- 용량 제약 하에서 팔을 플레이어에게 할당하기 위해 안정적 매칭 개념(GS 알고리즘)을 사용한다.
- 각 플레이어의 팔 순위를 안내하기 위해 Upper and Lower Confidence Bounds (UCB/LCB)를 사용한다.
- Awake Centralized UCB (AC-UCB)를 제안하여 선호도를 학습하고 매 라운드에서 플레이어 제안 GS를 실행한다.
- Awake Centralized Explore-Then-Gale–Shapley (AC-ETGS)를 제안하여 ETGS 기준에 따라 탐색과 exploition 라운드를 번갈아 수행한다.
- 일정 조건 하에서 후회의 상한이 서브선형임을 보이고, K가 N에 비해 크다는 regime에서 점근적 최적성을 보이기 위한 매칭 하한을 도출한다.

실험 결과
연구 질문
- RQ1가용성이 시간에 따라 임의로 변화하는 상황에서 sleepinging competing bandits의 기본적인 후회 한계는 무엇인가?
- RQ2수면 설정에서 중앙집중식 알고리즘이 서브선형의 플레이어-최적 및 플레이어-최악 안정 후회를 달성하도록 설계될 수 있는가?
- RQ3기존의 후회 경계가 sleepinging version의 경쟁 밴디트에 어떻게 확장되며 N, K, T, Δ에 따라 어떻게 확장되는가?
- RQ4제안된 알고리즘이 점근적 최적성을 갖는 조건은 무엇인가?(예: K가 N에 비해 어떤가)
- RQ5팔의 용량과 동적 선호가 안정성 및 후회에 어떤 영향을 미치는가?
주요 결과
- 어떤 정책도 추가 가정 없이 엄밀히 서브선형 후회를 달성할 수 없다(가정 없이 alpha-일관성 실패).
- 합리적 가정 하에서 플레이어-최악 안정 후회 하한은 Omega(N(K−N+1) log Ti / Δ^2)이다.
- AC-UCB 알고리즘은 플레이어-최악 안정 후회의 상한을 O(NK log Ti / Δ^2)로 달성한다.
- AC-ETGS 알고리즘은 플레이어-최적 안정 후회의 상한을 O(NK^2 log Ti / Δ^2)로 달성한다.
- 상한은 K가 N보다 상대적으로 큰 regime에서 제안된 방법들의 점근적 최적성을 시사한다(K = O(log Ti)로 분석).
- 동일한 가정 하에서 근본적인 하한은 Omega(N(K−N+1) log Ti / Δ^2)이다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.