[论文解读] Calibrated Fairness in Bandits
本文通过将Dwork等人提出的'对相似个体一视同仁'原则应用于具有相似奖励分布的臂,引入了在随机多臂赌博机中的校准公平性。它提出了一种带有初始均匀探索的Thompson采样变体,实现了$\tilde{O}((kT)^{2/3})$的公平性遗憾和$(2,\epsilon_2,\delta)$-公平性,且在总变差距离下确保各臂被选中的概率与其成为最优的概率成比例。
We study fairness within the stochastic, \emph{multi-armed bandit} (MAB) decision making framework. We adapt the fairness framework of "treating similar individuals similarly" to this setting. Here, an `individual' corresponds to an arm and two arms are `similar' if they have a similar quality distribution. First, we adopt a {\em smoothness constraint} that if two arms have a similar quality distribution then the probability of selecting each arm should be similar. In addition, we define the {\em fairness regret}, which corresponds to the degree to which an algorithm is not calibrated, where perfect calibration requires that the probability of selecting an arm is equal to the probability with which the arm has the best quality realization. We show that a variation on Thompson sampling satisfies smooth fairness for total variation distance, and give an $ ilde{O}((kT)^{2/3})$ bound on fairness regret. This complements prior work, which protects an on-average better arm from being less favored. We also explain how to extend our algorithm to the dueling bandit setting.
研究动机与目标
- 通过确保具有相似奖励分布的臂被选中的概率相似,来解决随机多臂赌博机中的公平性问题。
- 形式化并最小化公平性遗憾,即偏离校准公平性的程度,其中选择概率应与某臂成为最优实现的概率相匹配。
- 通过在配对比较中使用Plackett-Luce模型,将公平性框架扩展到对弈赌博机设置。
- 为改进的Thompson采样算法提供公平性遗憾和光滑公平性的理论界。
- 探索在序列决策中,校准公平性、光滑公平性和标准遗憾之间的权衡。
提出的方法
- 提出一种公平性遗憾度量,用于衡量与校准选择的偏离程度,其中选择概率应等于某臂具有最高奖励实现的概率。
- 引入一种带有初始均匀探索阶段的改进Thompson采样算法,以确保光滑公平性和校准性。
- 使用总变差距离来量化臂选择概率之间的相似性与奖励分布相似性之间的关系。
- 在对弈赌博机设置中使用成对比较统计量,以估计在Plackett-Luce模型下某臂排名第一的概率。
- 应用集中不等式,从成对胜率中估计质量参数比值,从而实现对最优臂概率的估计。
- 设计了Fair_SD_DTS,一种对弈赌博机算法,通过在所有臂对之间平衡探索,并利用估计的最优臂概率进行选择。
实验结果
研究问题
- RQ1能否设计一种赌博机算法,确保具有相似奖励分布的臂被选中的概率也相似?
- RQ2如何在赌博机学习中形式化并最小化校准公平性——即选择概率与成为最优的概率相匹配?
- RQ3在随机赌博机设置中,带有初始均匀探索的Thompson采样变体的公平性遗憾是多少?
- RQ4公平性框架能否扩展到使用成对比较的对弈赌博机设置?
- RQ5此类算法的公平性遗憾和光滑公平性的理论界是什么?
主要发现
- 带有初始均匀探索的改进Thompson采样算法,对任意$\epsilon_2 > 0$和$\delta > 0$,在总变差距离下实现$(2,\epsilon_2,\delta)$-公平性。
- 该算法的公平性遗憾被限制在$\tilde{O}((kT)^{2/3})$,为次线性,显著优于非公平方法。
- 在对弈赌博机设置中,Fair_SD_DTS利用成对比较统计量和Plackett-Luce建模,实现公平性遗憾界为$\tilde{O}(k^{4/3}T^{2/3})$。
- 该算法通过总变差距离将选择概率差异约束为与奖励分布差异成比例,从而确保光滑公平性。
- 引理5.1表明,在Plackett-Luce模型下,成对胜率估计的微小误差($\leq \epsilon$)会导致最优臂概率估计中$O(k\epsilon)$的误差。
- 理论分析证实,当探索阶段的规模为$O(1/\epsilon_2^2)$和$O(\log(1/\delta))$时,公平性遗憾最小化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。