QUICK REVIEW

[论文解读] Online Learning with an Unknown Fairness Metric

Stephen Gillen, Christopher Jung|arXiv (Cornell University)|Feb 20, 2018

Ethics and Social Impacts of AI参考文献 15被引用 56

一句话总结

本文研究在未知的马氏距离度量下定义的个体公平约束的在线线性情境赌博，并给出一个算法，在对抗性情境下对最佳公平策略的累积回撤达到最优的 O(√T) 量级，同时公平违规次数只呈对数级别。

ABSTRACT

We consider the problem of online learning in the linear contextual bandits setting, but in which there are also strong individual fairness constraints governed by an unknown similarity metric. These constraints demand that we select similar actions or individuals with approximately equal probability (arXiv:1104.3913), which may be at odds with optimizing reward, thus modeling settings where profit and social policy are in tension. We assume we learn about an unknown Mahalanobis similarity metric from only weak feedback that identifies fairness violations, but does not quantify their extent. This is intended to represent the interventions of a regulator who "knows unfairness when he sees it" but nevertheless cannot enunciate a quantitative fairness metric over individuals. Our main result is an algorithm in the adversarial context setting that has a number of fairness violations that depends only logarithmically on $T$, while obtaining an optimal $O(\sqrt{T})$ regret bound to the best fair policy.

研究动机与目标

动机：研究在公平度量未知且可能与奖励优化冲突的在线学习中的公平性。
通过使用未知距离函数的 Lipschitz 约束来建模个体公平性。
开发一个在对抗性情境下尽量减少相对于最佳公平策略的累积回撤同时保持公平违规较小的算法。
利用一个公平性预言/oracle，它仅指示是否违规而不量化违规幅度，以学习度量。
建立基于马氏距离度量的回撤和公平违规界限。

提出的方法

将问题放在具有 k 个动作和 d 维上下文的线性情境赌博框架中。
假设公平性通过 Lipschitz 约束定义：对所有 i,j，有 |π_i^t - π_j^t| ≤ d(x_i^t, x_j^t)。
将距离函数 d 视为未知，并从公平预言 O_d 提供的弱反馈中学习。
将距离估计简化为一组 DistanceEstimator 实例，每对动作一个，使用以 G = A^T A 线性表达的平方马氏距离。
解决逐轮线性规划 LP(bar{r}^t, hat{d}^t) 以获得公平的动作分布 π^t，其中 hat{d}^t 是当前的距离估计。
仅在相应的 LP 约束达到紧性或发生公平违规时，对 DistanceEstimator 实例提供反馈，否则回滚。
给出两步结果证明：(i) 绑定公平违规次数的上界，(ii) 将回撤界于最佳公平策略之上，达到 O~(k^2 d^2 log(T) + d√T) 的回撤和 O(k^2 d^2 log(d/ε)) 的非公平轮数（ε 取适当值）。
将马氏距离具体化为 d(x1,x2) = ||A x1 - A x2||_2，并通过线性估计学习 G = A^T A。

实验结果

研究问题

RQ1在公平度量未知的情况下，线性情境赌博中的在线学习能否满足个体公平性（参见 Dwork 等人 2012）？
RQ2在对抗性情境下，当公平度量未知时，所需的公平违规次数是多少？
RQ3在保持公平违规相对于时间窗口 T 的对数级别的同时，是否能够实现接近最佳公平策略的回撤？
RQ4如何利用公平预言的弱反馈来学习未知的马氏距离度量？
RQ5在马氏距离参数和时间区间方面，性能保证（回撤和公平损失）是什么？

主要发现

存在一个计算高效的算法 L，对于任意马氏距离和时长 T，在误差容忍度 ε 下，对最佳公平策略的回撤达到 tilde O(k^2 d^2 log(T) + d√T)。
以 1 的概率，L 在最多 O(k^2 d^2 log(d/ε)) 轮次数上对未知公平约束违规超过 ε。
设 ε = O(1/T) 则在时间 T 内公平违规次数达到对数界。
两阶段分析展示如何利用距离估计机制来界定公平违规，并用基于 LP 的决策来界定回撤。
在目标已知的情形下，该方法将距离学习简化为 DistanceEstimator 实例，并对 ε 次错误数进行界限，扩展到论文中的完整问题。
该方法利用平方马氏距离在 G = A^T A 线性的性质，通过线性估计器进行学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。