[论文解读] Real-Time Bidding Benchmarking with iPinYou Dataset
本文介绍了iPinYou RTB数据集,这是首个公开可用的大规模真实世界数据集,用于展示广告中的实时出价(RTB)研究,支持出价优化与点击率(CTR)估计的基准测试。该研究提出了一套标准化的评估协议,并基于多种出价策略与CTR模型进行了全面的统计分析与基准实验,显著推动了计算广告领域可复现研究的发展。
Being an emerging paradigm for display advertising, Real-Time Bidding (RTB) drives the focus of the bidding strategy from context to users' interest by computing a bid for each impression in real time. The data mining work and particularly the bidding strategy development becomes crucial in this performance-driven business. However, researchers in computational advertising area have been suffering from lack of publicly available benchmark datasets, which are essential to compare different algorithms and systems. Fortunately, a leading Chinese advertising technology company iPinYou decided to release the dataset used in its global RTB algorithm competition in 2013. The dataset includes logs of ad auctions, bids, impressions, clicks, and final conversions. These logs reflect the market environment as well as form a complete path of users' responses from advertisers' perspective. This dataset directly supports the experiments of some important research problems such as bid optimisation and CTR estimation. To the best of our knowledge, this is the first publicly available dataset on RTB display advertising. Thus, they are valuable for reproducible research and understanding the whole RTB ecosystem. In this paper, we first provide the detailed statistical analysis of this dataset. Then we introduce the research problem of bid optimisation in RTB and the simple yet comprehensive evaluation protocol. Besides, a series of benchmark experiments are also conducted, including both click-through rate (CTR) estimation and bid optimisation.
研究动机与目标
- 为解决实时出价(RTB)在展示广告领域中缺乏公开可用基准数据集的关键问题。
- 为需求方平台(DSP)出价策略提供标准化、全面的离线评估协议。
- 通过发布iPinYou 2013年全球算法竞赛中的大规模真实世界RTB数据集,实现可复现研究。
- 使用多种基线算法,在CTR估计与出价优化方面开展基准实验。
- 通过提供可访问的、生产级数据,激发计算广告领域的学术研究与技术发展。
提出的方法
- iPinYou RTB数据集包含35 GB的广告拍卖日志,涵盖出价请求、展示、点击与转化数据,均来自真实世界的RTB交易。
- 评估协议将KPI定义为点击数与加权转化数之和,并在不同广告活动层级施加预算限制。
- 基准测试包括多种出价策略:恒定出价、随机出价、McPC-L、McPC-G、Lin-L与Lin-G,每种策略基于CTR与每次点击成本(CPC)估计采用不同的出价逻辑。
- 利用数据集中的上下文特征与行为特征训练并评估CTR估计模型,以支持出价决策。
- 对数据集进行统计分析,以刻画市场动态、出价分布与用户响应模式。
- 采用离线评估方法,模拟在不同预算限制与出价策略下的广告活动表现。
实验结果
研究问题
- RQ1iPinYou RTB数据集在多大程度上反映了展示广告中的真实市场动态?
- RQ2在不同预算限制下,各类出价策略(如McPC、Lin、恒定出价)的表现如何?
- RQ3基于所提供特征,CTR估计模型在预测用户响应方面的准确性如何?
- RQ4市场出价分布如何影响RTB中的最优出价行为?
- RQ5所提出的评估协议能否可靠地比较并排序不同出价策略,实现可复现的评估?
主要发现
- iPinYou数据集包含超过35 GB的实时出价日志,涵盖出价请求、展示、点击与转化数据,支持对RTB生态系统的全面分析。
- 在1/32预算限制下,Lin-G策略在所有广告商中取得了最高的KPI得分,达到1,767次点击与转化的总和。
- 在1/8预算限制下,McPC-G策略表现最佳,KPI达到2,283,表明其在成本效率方面具有显著优势。
- Lin-G策略在所有预算水平下均保持在顶尖表现,1/2预算约束下总KPI达到2,951。
- 数据集揭示了市场价格与出价分布存在显著波动,凸显了对价格动态建模在最优出价中的重要性。
- 基准评估协议成功实现了对出价策略的公平且可复现的比较,不同预算场景下的性能排名清晰明确。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。