[论文解读] Decentralized Exploration in Multi-Armed Bandits
本文提出了一种名为去中心化消除(Decentralized Elimination)的通用算法,用于在异步、去中心化的玩家参与下,实现多臂赌博机中隐私保护的协作最优臂识别。该算法通过将对手的推断限制在单个用户的数据上,实现低通信开销和强隐私保障,样本复杂度的惩罚项与最频繁参与玩家的概率成反比,同时可扩展至非平稳环境。
We consider the decentralized exploration problem: a set of players collaborate to identify the best arm by asynchronously interacting with the same stochastic environment. The objective is to insure privacy in the best arm identification problem between asynchronous, collaborative, and thrifty players. In the context of a digital service, we advocate that this decentralized approach allows a good balance between the interests of users and those of service providers: the providers optimize their services, while protecting the privacy of the users and saving resources. We define the privacy level as the amount of information an adversary could infer by intercepting the messages concerning a single user. We provide a generic algorithm Decentralized Elimination, which uses any best arm identification algorithm as a subroutine. We prove that this algorithm insures privacy, with a low communication cost, and that in comparison to the lower bound of the best arm identification problem, its sample complexity suffers from a penalty depending on the inverse of the probability of the most frequent players. Then, thanks to the genericity of the approach, we extend the proposed algorithm to the non-stationary bandits. Finally, experiments illustrate and complete the analysis.
研究动机与目标
- 解决多臂赌博机中玩家异步协作以识别最优臂时面临的隐私保护与去中心化探索挑战。
- 通过最小化用户消息中的信息泄露,平衡用户隐私与服务提供商效率。
- 设计一种通信高效的算法,在保持强隐私的同时实现具有竞争力的样本复杂度。
- 将该方法扩展至非平稳赌博机环境,确保对随时间变化的奖励分布具有适应性。
提出的方法
- 该算法使用任何现有的最优臂识别算法作为子程序,从而实现模块化与广泛适用性。
- 通过限制对手从单个用户消息中可推断的信息量来实现隐私保护,将隐私定义为每个用户的信息泄露最大值。
- 玩家以异步方式协作通信,每个玩家使用接收到的消息更新其对最优臂的本地信念。
- 通过最小化消息交换量来确保低通信开销,同时保持收敛至最优臂。
- 引入与最频繁参与玩家概率的倒数成比例的样本复杂度惩罚项,量化去中心化带来的代价。
- 通过调整消除机制以检测并响应臂奖励的变化,将框架扩展至非平稳赌博机。
实验结果
研究问题
- RQ1在去中心化、异步设置下,玩家如何协作识别最优臂,同时保护用户隐私?
- RQ2在去中心化赌博机学习中,隐私、通信开销与样本复杂度之间的权衡关系如何?
- RQ3玩家参与频率如何影响去中心化最优臂识别的样本复杂度?
- RQ4所提出的方案能否扩展至随时间变化的奖励分布的非平稳环境?
- RQ5对手从单个用户通信中可推断的信息泄露的理论上限是什么?
主要发现
- 去中心化消除算法通过将对手推断限制在单个用户数据上,实现了强隐私保护,隐私定义为对手从单个用户消息中可获取的最大信息量。
- 该算法实现了低通信开销,适用于资源受限的数字服务。
- 与集中式下界相比,该算法的样本复杂度惩罚项与最频繁参与玩家的概率成反比。
- 该方法具有通用性,可与任何最优臂识别算法作为子程序结合,具备灵活性与可扩展性。
- 对非平稳赌博机的扩展表明,该算法能够适应奖励分布随时间变化的环境。
- 实验验证了理论分析,表明该算法在各种设置下均能保持隐私性与效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。