Skip to main content
QUICK REVIEW

[论文解读] Tracing Information Flows Between Ad Exchanges Using Retargeted Ads

Muhammad Ahmad Bashir, Sajjad Arshad|arXiv (Cornell University)|Nov 2, 2018
Privacy, Security, and Data Protection参考文献 40被引用 25
一句话总结

本文提出了一种新颖的、基于语义的检测方法,通过利用再营销广告作为探测手段,识别广告交换平台之间客户端与服务端的信息流。该方法识别出四类数据共享行为,包括先前基于启发式方法未能发现的流,同时提供了谷歌跨服务数据共享用于再营销的实证证据。

ABSTRACT

Numerous surveys have shown that Web users are concerned about the loss of privacy associated with online tracking. Alarmingly, these surveys also reveal that people are also unaware of the amount of data sharing that occurs between ad exchanges, and thus underestimate the privacy risks associated with online tracking. In reality, the modern ad ecosystem is fueled by a flow of user data between trackers and ad exchanges. Although recent work has shown that ad exchanges routinely perform cookie matching with other exchanges, these studies are based on brittle heuristics that cannot detect all forms of information sharing, especially under adversarial conditions. In this study, we develop a methodology that is able to detect client- and server-side flows of information between arbitrary ad exchanges. Our key insight is to leverage retargeted ads as a tool for identifying information flows. Intuitively, our methodology works because it relies on the semantics of how exchanges serve ads, rather than focusing on specific cookie matching mechanisms. Using crawled data on 35,448 ad impressions, we show that our methodology can successfully categorize four different kinds of information sharing behavior between ad exchanges, including cases where existing heuristic methods fail. We conclude with a discussion of how our findings and methodologies can be leveraged to give users more control over what kind of ads they see and how their information is shared between ad exchanges.

研究动机与目标

  • 为解决缺乏检测广告交换平台之间全面信息流的工具问题,特别是在存在混淆或服务端机制的情况下。
  • 克服现有基于启发式的方法在使用混淆技术(例如加密哈希)时无法检测到Cookie匹配的局限性。
  • 开发一种内容和交换平台无关的方法,利用再营销广告的行为语义来推断信息流。
  • 通过实证方法刻画主要广告交换平台(例如谷歌、Criteo、SSP、DSP)在实时竞价(RTB)生态系统中的角色和数据共享行为。
  • 通过提供真实数据,为隐私保护型广告拦截和信息流控制系统的用户隐私控制提供支持。

提出的方法

  • 使用再营销广告——即用户看到其先前浏览过的产品广告——作为探测手段,推断广告交换平台之间的信息流。
  • 使用基于Chromium的爬虫工具,记录来自5,102个唯一再营销广告的完整资源包含链(包括脚本、iframe和请求)。
  • 应用模式匹配规则于包含链,以识别每个再营销广告服务过程中涉及的广告交换平台序列。
  • 将检测到的信息流分类为四类:Cookie匹配、直接数据共享、共享追踪基础设施和服务器端协调。
  • 对推断出的交换平台交互网络进行图分析,以推断其角色(例如DSP、SSP)和数据流模式。
  • 利用所得数据集作为真实基准,为未来的隐私保护系统(如基于信息流控制的拦截器或基于规则的广告拦截器)提供支持。

实验结果

研究问题

  • RQ1再营销广告能否作为可靠探测手段,用于检测广告交换平台之间的客户端与服务端信息流?
  • RQ2现有基于启发式的方法在检测Cookie匹配流方面效果如何,其遗漏了多少比例的信息流?
  • RQ3主要广告交换平台(例如谷歌、Criteo、SSP)在再营销流程中的实际角色和数据共享行为是什么?
  • RQ4谷歌在多大程度上利用其第一方基础设施,实现跨服务数据共享以支持再营销?
  • RQ5所检测到的信息流能否用于构建更高效、更注重隐私保护的广告拦截或信息流控制机制?

主要发现

  • 所提出的方法比先前基于启发式的方法多检测到31%的广告交换平台对之间的数据共享,后者在使用混淆技术(例如加密哈希)时会遗漏信息流。
  • 实证证据证实,谷歌利用其内部基础设施(例如googletagservices、doubleclick)在不同服务间共享用户数据以实现再营销,验证了其隐私政策声明。
  • Criteo是继谷歌联盟(Google Syndication)之后第二大致电再营销广告的来源,且在2014年为美国和英国最大的再营销平台。
  • SSP(供应方平台)的入度比率高于DSP(需求方平台),表明其在广告交换网络中充当中心枢纽,部分SSP同时具备DSP功能。
  • 谷歌的域名(例如doubleclick、googlesyndication)兼具SSP和DSP双重角色,通常参与拍卖并赢得竞价以投放再营销广告。
  • 图分析表明,广告交换平台可根据其在数据流网络中的位置和连通性,自动分类为DSP、SSP或混合平台。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。