QUICK REVIEW

[論文レビュー] Regret Analysis of Sleeping Competing Bandits

Shinnosuke Uba, Yutaro Yamaguchi|arXiv (Cornell University)|Mar 20, 2026

Advanced Bandit Algorithms Research被引用数 0

ひとこと要約

本論文は「眠る競合バンディット」設定を定義し、後悔の下界を導出し、AC-UCBとAC-ETGSというアルゴリズムを提案して、合理的仮定の下でプレイヤーの後悔をサブ線形に抑えることを示し、アーム数Kがプレイヤー数Nに対して大きくなると漸近的最適性を達成する。

ABSTRACT

The Competing Bandits framework is a recently emerging area that integrates multi-armed bandits in online learning with stable matching in game theory. While conventional models assume that all players and arms are constantly available, in real-world problems, their availability can vary arbitrarily over time. In this paper, we formulate this setting as Sleeping Competing Bandits. To analyze this problem, we naturally extend the regret definition used in existing competing bandits and derive regret bounds for the proposed model. We propose an algorithm that simultaneously achieves an asymptotic regret bound of $\mathrm{O}\left(NK\log T_{i}/Δ^2 ight)$ under reasonable assumptions, where $N$ is the number of players, $K$ is the number of arms, $T_{i}$ is the number of rounds of each player $p_i$, and $Δ$ is the minimum reward gap. We also provide a regret lower bound of $\mathrmΩ\left( N(K-N+1)\log T_{i}/Δ^2 ight)$ under the same assumptions. This implies that our algorithm is asymptotically optimal in the regime where the number of arms $K$ is relatively larger than the number of players $N$.

研究の動機と目的

時間とともにプレイヤーとアームの双方が利用不能になる可能性がある眠る競合バンディット設定を定式化する。
この動的な「2面市場」におけるプレイヤー最適な安定後悔とプレイヤーペソマル安定後悔を定義する。
この設定に対する任意のアルゴリズムの基本的な後悔の下界を確立する。
眠る環境に拡張した中央集権型アルゴリズムを開発し、UCB/ETGS の後悔を解析する。
提案手法が漸近的に最適となる実現領域を特徴付ける（例：KとNの相対関係）。）

提案手法

プレイヤーとアームの時変可用性を持つ Sleeping Competing Bandits モデルを定義する。
安定マッチングの概念（GS アルゴリズム）を用いて容量制約の下でアームをプレイヤーに割り当てる。
各プレイヤーのアームランキングを導くために上限・下限信頼境界（UCB/LCB）を用いる。
Awake Centralized UCB (AC-UCB) を提案し、嗜好を学習し各ラウンドでプレイヤー提案GSを実行する。
Awake Centralized Explore-Then-Gale–Shapley (AC-ETGS) を提案し、ETGS基準を用いた探索と活用のラウンドを交互に行う。
特定の条件下での後悔のサブ線形上界を証明し、KがNに対して大きい領域で漸近的最適性を示す一致する下界を導出する。

Figure 1: Regret comparison between random and weighted exploration with heterogeneous player unavailability probabilities.

実験結果

リサーチクエスチョン

RQ1可用性が時間とともに任意に変化する眠る競合バンディットにおける基本的な後悔下界は何か？
RQ2眠る設定でサブ線形なプレイヤー最適およびプレイヤーペソマル安定後悔を達成する中央集権アルゴリズムは設計可能か？
RQ3既存の後悔境界は眠る版の競合バンディットへどのように拡張され、N, K, T, Δとどのようにスケールするか？
RQ4提案アルゴリズムはどの条件下で漸近的最適性を達成するか（例：KとNの相対関係）？
RQ5アーム容量と動的嗜好が安定性と後悔に与える影響は何か？

主な発見

追加の仮定がないと、いかなるポリシーも厳密にサブ線形の後悔を達成できない（α一貫性の欠如は仮定なしには生じる）。
合理的な仮定の下で、プレイヤーペソマル安定後悔の下界は Omega(N(K−N+1) log Ti / Δ^2) である。
AC-UCB アルゴリズムはプレイヤーペソマル安定後悔に対して O(NK log Ti / Δ^2) の上界を達成する。
AC-ETGS アルゴリズムはプレイヤー最適安定後悔に対して O(NK^2 log Ti / Δ^2) の上界を達成する。
KがNより相対的に大きい領域（分析上は K = O(log Ti)）で提案手法の漸近的最適性を示唆する。
同じ仮定の下で基本的な下界は Omega(N(K−N+1) log Ti / Δ^2) である。

Figure 2: Regret comparison between random and weighted exploration with identical player unavailability probabilities.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。