[论文解读] Online Stochastic Packing Applied to Display Ad Allocation
本文提出了一种基于训练的原始-对偶算法,用于在线随机打包线性规划,在随机顺序随机模型中实现了 (1−ε)-近似解。该框架被应用于展示广告分配,与以往的在线算法相比,在效率和公平性方面均表现出显著提升,实证结果表明其效率最高比基线方法高出12%。
Inspired by online ad allocation, we study online stochastic packing linear programs from theoretical and practical standpoints. We first present a near-optimal online algorithm for a general class of packing linear programs which model various online resource allocation problems including online variants of routing, ad allocations, generalized assignment, and combinatorial auctions. As our main theoretical result, we prove that a simple primal-dual training-based algorithm achieves a (1 - o(1))-approximation guarantee in the random order stochastic model. This is a significant improvement over logarithmic or constant-factor approximations for the adversarial variants of the same problems (e.g. factor 1 - 1/e for online ad allocation, and \log m for online routing). We then focus on the online display ad allocation problem and study the efficiency and fairness of various training-based and online allocation algorithms on data sets collected from real-life display ad allocation system. Our experimental evaluation confirms the effectiveness of training-based primal-dual algorithms on real data sets, and also indicate an intrinsic trade-off between fairness and efficiency.
研究动机与目标
- 设计一种适用于资源分配问题(如广告分配和路由)的近似最优在线算法,用于在线随机打包线性规划。
- 证明在温和假设下,基于训练的原始-对偶方法在随机顺序随机模型中可实现 (1−ε)-近似解。
- 在真实世界展示广告数据上,评估基于训练和在线分配算法的效率与公平性。
- 探索在线广告分配系统中效率与公平性之间的权衡。
- 开发并测试结合基于训练和在线方法的混合算法,以进一步提升性能。
提出的方法
- 该算法观察前 ε 分数的代理,以训练一个离线线性规划,从中提取对偶变量作为剩余代理的资源价格。
- 对于每个剩余代理,该算法选择使效用最大化的选项,效用定义为价值减去按标价所需资源的成本。
- 使用训练阶段线性规划中的对偶变量作为标价,从而实现一种确保可行性与近似最优性的原始-对偶方法。
- 该方法假设任一选项不会过度消耗任何资源,或对总价值贡献不成比例,从而保证近似比有界。
- 该算法在真实展示广告数据集上进行了实证评估,比较了包括 PD_AVG、PD_EXP 和混合变体在内的多种算法的效率与公平性。
- 引入了一种新的公平性度量,定义为与离线公平分配的距离,从而实现不同算法间公平性的定量比较。
实验结果
研究问题
- RQ1基于训练的原始-对偶算法是否能在随机顺序模型中,对在线随机打包线性规划实现 (1−ε)-近似解?
- RQ2在真实世界展示广告数据上,基于训练的算法与纯在线算法在效率和公平性方面相比如何?
- RQ3在线广告分配中,效率与公平性之间是否存在显著权衡,且该权衡是否可量化?
- RQ4结合基于训练和在线方法的混合算法是否能进一步提升性能?
- RQ5基于训练方法的理论保证能否推广到其他随机模型,如基于马尔可夫的过程?
主要发现
- 在温和假设下,基于训练的原始-对偶算法在随机顺序随机模型中,可实现对离线最优解的 (1−ε)-近似。
- 在真实世界数据集上,DualBase 算法平均比 PD_AVG 提高 12% 的效率,比 PD_EXP 提高 5%。
- HYBRID 算法在 DualBase 基础上实现了额外 2% 的平均性能提升,特定情况下最高可达 10% 的提升。
- PD_AVG 在公平性方面优于 GREEDY,同时保持了较强的效率,而 GREEDY 在所有测试算法中公平性最差。
- 在竞争性环境(如超售的发布商)中,PD_EXP 显著优于 PD_AVG,效率提升可达极大值。
- 在非极端场景下,基于训练的方法始终优于纯在线算法,证实了学习在实践中能提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。