[论文解读] Fairness in Learning: Classic and Contextual Bandits
简要结论:本文在上下文 bandits 中定义了个体公平,并展示公平性与学习性能之间的基本权衡,包括严格的后悔界和 KWIK–Fairness 连接。
We introduce the study of fairness in multi-armed bandit problems. Our fairness definition can be interpreted as demanding that given a pool of applicants (say, for college admission or mortgages), a worse applicant is never favored over a better one, despite a learning algorithm's uncertainty over the true payoffs. We prove results of two types. First, in the important special case of the classic stochastic bandits problem (i.e., in which there are no contexts), we provide a provably fair algorithm based on "chained" confidence intervals, and provide a cumulative regret bound with a cubic dependence on the number of arms. We further show that any fair algorithm must have such a dependence. When combined with regret bounds for standard non-fair algorithms such as UCB, this proves a strong separation between fair and unfair learning, which extends to the general contextual case. In the general contextual case, we prove a tight connection between fairness and the KWIK (Knows What It Knows) learning model: a KWIK algorithm for a class of functions can be transformed into a provably fair contextual bandit algorithm, and conversely any fair contextual bandit algorithm can be transformed into a KWIK learning algorithm. This tight connection allows us to provide a provably fair algorithm for the linear contextual bandit problem with a polynomial dependence on the dimension, and to show (for a different class of functions) a worst-case exponential gap in regret between fair and non-fair learning algorithms
研究动机与目标
- 激发对在序列决策中研究公平性的兴趣,其中决策会影响个体。
- 为上下文 bandits 定义一个精确的个体公平性标准。
- 表征在经典与上下文设置中执行公平性的学习成本。
提出的方法
- 引入一个对 bandit 算法的 delta-fairness 概念,禁止偏向均值较低的臂而非均值较高的臂。
- 提出 FairBandits,一种对 UCB 的公平版本,使用链式置信区间来强制成对公平。
- 推导 FairBandits 的后悔界,在经典情形下对臂数的三次幂依赖。
- 建立一个紧下界,表明任何公平算法在 Omega(k^3) 轮中都承受常数级的每轮后悔。
- 展示 KWIK–fairness 的连接,使 KWIK 学习与公平上下文 bandits 之间可以相互化简。
- 展示线性上下文 bandits 中的维度 d 的多项式依赖的公平学习,以及其他函数类中的指数差距。
实验结果
研究问题
- RQ1在序列上下文 bandits 中,公平性约束如何形式化?
- RQ2在经典随机博弈中强制公平性的学习成本(以后悔表示)是多少?
- RQ3公平性如何与上下文 bandits 设置中的 KWIK 学习相关?
- RQ4在线性情形下,公平的上下文 bandits 能否高效学习,维度依赖如何?
- RQ5是否存在使公平学习相对于非公平学习呈现指数惩罚的问题实例?
主要发现
- FairBandits 是 delta-fair,维护置信区间,确保在高概率下不会把均值较低的臂偏好于均值较高的臂。
- 在经典(非上下文)博弈设定中,FairBandits 的后悔在 T 的数量上为 O(k^3)(乘以对数因子),对 k 的依赖在常数范围内是紧的。
- 存在公平和不公平学习之间的根本分离,因为任何公平算法在某些实例上需要 Omega(k^3) 时间才能摆脱均匀探索。
- KWIK 学习框架通过在 KWIK 边界和后悔之间的化简,严格刻画了上下文设中最优的公平学习速率。
- 对于线性上下文 bandits,本文提供了一个可证明公平的算法,其对维度 d 的依赖是多项式的。
- 存在某些函数类(如布尔合取)中,公平学习在 d 上的下界呈指数级,凸显公平性的潜在最坏情况惩罚。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。