Skip to main content
QUICK REVIEW

[论文解读] Adscape: Harvesting and Analyzing Online Display Ads

Paul Barford, Igor Canadi|arXiv (Cornell University)|Jul 3, 2014
Web Data Mining and Analysis参考文献 10被引用 45
一句话总结

本文提出 Adscape,一种基于用户画像的新型网络爬虫系统,通过使用340个不同的用户画像,在180个英文网站上抓取了超过175,000个独特的在线展示广告。研究揭示了兴趣定向和人口统计(年龄/性别)定向的广泛使用,广告在不同用户画像之间存在显著差异,并识别出涵盖多个商业领域的3,700多个独立广告商。

ABSTRACT

Over the past decade, advertising has emerged as the primary source of revenue for many web sites and apps. In this paper we report a first-of-its-kind study that seeks to broadly understand the features, mechanisms and dynamics of display advertising on the web - i.e., the Adscape. Our study takes the perspective of users who are the targets of display ads shown on web sites. We develop a scalable crawling capability that enables us to gather the details of display ads including creatives and landing pages. Our crawling strategy is focused on maximizing the number of unique ads harvested. Of critical importance to our study is the recognition that a user's profile (i.e. browser profile and cookies) can have a significant impact on which ads are shown. We deploy our crawler over a variety of websites and profiles and this yields over 175K distinct display ads. We find that while targeting is widely used, there remain many instances in which delivered ads do not depend on user profile; further, ads vary more over user profiles than over websites. We also assess the population of advertisers seen and identify over 3.7K distinct entities from a variety of business segments. Finally, we find that when targeting is used, the specific types of ads delivered generally correspond with the details of user profiles, and also on users' patterns of visit.

研究动机与目标

  • 开发一种可扩展的、基于用户画像的网络爬虫基础设施,能够在最小化网站负载的同时捕获展示广告,并保持用户特定的广告投放行为。
  • 描述在线展示广告的宏观格局(称为“Adscapes”),包括广告多样性、定向机制和广告商群体。
  • 通过实证研究探讨用户画像(如浏览器、Cookie)如何影响广告投放,评估个性化程度及不同网站间的一致性。
  • 分析投放广告与用户画像特征(如兴趣、年龄和性别)之间的匹配程度,以理解定向的有效性。
  • 通过大规模实证数据收集,为改进广告定向系统和优化广告投放生态系统提供基础性洞见。

提出的方法

  • 开发基于用户画像的爬虫框架,使用Firefox浏览器模拟具有独立浏览器配置文件和Cookie的个体用户,实现对真实广告投放行为的模拟。
  • 实现自定义广告检测模块,通过分析图像位置、尺寸和上下文,将展示广告与其他页面元素区分开来,确保广告创意和落地页的准确抓取。
  • 在180个大型英文网站上部署爬虫,使用340个独特的用户画像,以最大化所抓取广告的多样性与独特性。
  • 收集并结构化广告创意、落地页、广告商身份以及定向信号(如兴趣类别、人口统计定向)等数据,用于分析。
  • 应用聚类与分类技术,按内容、广告商和定向标准对广告进行分组,支持对广告相似性与定向模式的分析。
  • 采用纵向爬取策略评估广告的新鲜度与广告活动动态,确保数据反映当前的广告投放实践。

实验结果

研究问题

  • RQ1网站在展示广告中在多大程度上使用定向机制?不同用户画像之间的定向方式有何差异?
  • RQ2在线展示广告生态系统中的广告商群体有多多样化?哪些商业领域最为突出?
  • RQ3投放的广告在多大程度上与用户画像特征(如兴趣、年龄和性别)相匹配?
  • RQ4广告在不同网站之间与在不同用户画像之间的差异如何?哪一因素对广告投放的影响更大?
  • RQ5在全网范围内,展示广告的整体多样性和独特性如何?这种多样性和独特性如何随用户特定上下文而变化?

主要发现

  • 在所研究网站的展示广告库存中,超过80%使用了定向机制,表明个性化广告投放被广泛采用。
  • 该系统抓取了超过175,000个独特的展示广告,且在不同用户画像之间广告内容和定向方式存在显著差异,表明个性化效应强烈。
  • 在涵盖购物、金融服务和计算机销售等多个商业领域的多样业务中,识别出超过3,700个独立广告商,表明广告生态系统广泛且活跃。
  • 基于兴趣的定向被广泛部署,广告通常与用户画像特征(如兴趣、年龄和性别)相匹配,证实了行为定向的有效性。
  • 广告在不同用户画像之间的差异程度高于在不同网站之间的差异,表明用户级画像对广告投放的影响强于网站级内容。
  • 尽管广泛使用定向,仍有大量广告被统一投递给所有用户,无论其画像如何,表明定向实现中存在局限性或不一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。