[论文解读] Learning to Incentivize: Eliciting Effort via Output Agreement
本文提出一种机制,通过输出一致性机制激励众包中的诚实报告与努力付出,其中工人因与同伴答案一致而获得奖励。该文刻画了贝叶斯纳什均衡,基于已知的成本分布使用凸优化推导出最优奖励水平,并设计了一种顺序学习机制,在成本分布未知时最小化遗憾,实现 O(T^{2/3} log T) 的遗憾界。
In crowdsourcing when there is a lack of verification for contributed answers, output agreement mechanisms are often used to incentivize participants to provide truthful answers when the correct answer is hold by the majority. In this paper, we focus on using output agreement mechanisms to elicit effort, in addition to eliciting truthful answers, from a population of workers. We consider a setting where workers have heterogeneous cost of effort exertion and examine the data requester's problem of deciding the reward level in output agreement for optimal elicitation. In particular, when the requester knows the cost distribution, we derive the optimal reward level for output agreement mechanisms. This is achieved by first characterizing Bayesian Nash equilibria of output agreement mechanisms for a given reward level. When the requester does not know the cost distribution, we develop sequential mechanisms that combine learning the cost distribution with incentivizing effort exertion to approximately determine the optimal reward level.
研究动机与目标
- 解决在缺乏或验证成本高昂的真值时,如何在众包中同时获取诚实回答与努力付出的挑战。
- 将工人建模为具有异质性、私密已知的努力成本,且成本来自同一分布,使努力成为内生选择。
- 设计奖励机制,通过平衡准确率与支付成本,使请求方的期望效用最大化。
- 开发一种顺序机制,在重复交互中学习成本分布,同时激励努力与诚实报告。
- 为请求方在初始成本分布未知的动态设置下的遗憾提供理论保证。
提出的方法
- 刻画在任意给定奖励水平下,输出一致性机制的贝叶斯纳什均衡(BNE),表明存在一种唯一的阈值策略可使工人效用最大化。
- 在静态设置中,当成本分布已知时,将最优奖励水平表述为凸优化问题,从而实现高效计算。
- 设计一种顺序机制,交替进行探索(以学习成本分布)与利用(以设定奖励),确保诚实的成本报告。
- 使用高概率浓度不等式与切尔诺夫型不等式,控制学习阶段中成本与匹配概率的估计偏差。
- 利用请求方效用函数的凹性与有界导数假设,将抽样误差与效用损失关联。
- 推导出动态机制的遗憾界为 O(T^{2/3} log T),在 T 项任务中平衡探索与利用。
实验结果
研究问题
- RQ1当工人的成本分布已知时,输出一致性机制中的最优奖励水平是什么,可使请求方的期望效用最大化?
- RQ2当成本分布未知时,请求方如何设计机制以同时激发诚实报告与努力付出?
- RQ3在成本分布随时间学习的顺序设置中,请求方遗憾的性能保证是什么?
- RQ4工人的均衡行为——特别是其努力与报告策略——如何依赖于奖励水平与成本分布?
- RQ5在最小化长期遗憾时,探索(学习成本分布)与利用(设定最优奖励)之间的权衡是什么?
主要发现
- 输出一致性机制的贝叶斯纳什均衡具有唯一的阈值策略:仅当成本低于特定阈值时,工人才会付出努力,从而最大化其期望效用。
- 当成本分布已知时,最优奖励水平是凸规划的解,可高效计算。
- 在动态设置中,所提出的顺序机制确保了诚实的成本报告,并在 T 项任务中保持请求方期望效用的遗憾界为 O(T^{2/3} log T)。
- 遗憾界源于平衡探索(O(T^{2/3} log T) 个阶段)与利用,最优探索率在 z = 2/3 时实现。
- 该机制通过高概率浓度不等式控制成本估计与匹配概率的偏差,确保效用损失与抽样误差成正比。
- 分析表明,即使成本估计不完美,由于误报与抽样误差导致的效用损失仍受控且随时间递减,从而实现长期性能保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。