QUICK REVIEW

[论文解读] WhoTracks .Me: Shedding light on the opaque world of online tracking

Arjaldo Karaj, Sam Macbeth|arXiv (Cornell University)|Apr 24, 2018

Privacy, Security, and Data Protection参考文献 13被引用 23

一句话总结

本文介绍了 WhoTracks.Me，这是一个通过部署至超过 500 万名用户的隐私保护型浏览器扩展，对在线跟踪行为进行大规模、长期测量的研究。该研究收集了超过 15 亿次页面加载中第三方跟踪器的匿名数据，历时 12 个月，实现了在保护用户隐私的前提下对现实世界跟踪行为的分析，并公开发布了数据集和跟踪器数据库，以支持研究、监管和透明度提升。

ABSTRACT

Online tracking has become of increasing concern in recent years, however our understanding of its extent to date has been limited to snapshots from web crawls. Previous at-tempts to measure the tracking ecosystem, have been done using instrumented measurement platforms, which are not able to accurately capture how people interact with the web. In this work we present a method for the measurement of tracking in the web through a browser extension, as well as a method for the aggregation and collection of this information which protects the privacy of participants. We deployed this extension to more than 5 million users, enabling measurement across multiple countries, ISPs and browser configurations, to give an accurate picture of real-world tracking. The result is the largest and longest measurement of online tracking to date based on real users, covering 1.5 billion page loads gathered over 12 months. The data, detailing tracking behaviour over a year, is made publicly available to help drive transparency around online tracking practices.

研究动机与目标

为解决在线跟踪领域缺乏真实世界、长期数据的问题，通过大规模测量实际用户浏览行为，提供真实场景下的跟踪行为分析。
克服基于爬虫的方法所引入的偏差，以及无法捕捉认证环境或封闭生态（walled-garden）中跟踪行为的局限性。
提供一种透明、隐私保护的跟踪生态系统测量方法，真实反映不同浏览器、互联网服务提供商（ISP）和地理区域中用户的实际体验。
为研究人员、监管机构、记者和开发者提供开放、匿名的数据及可搜索的跟踪器数据库，以提升对在线跟踪实践的认知与问责性。

提出的方法

将浏览器扩展部署至超过 500 万名同意参与的用户，实时收集其在正常浏览活动中涉及的第三方跟踪器数据。
通过隐私优先设计原则，在客户端侧剥离或混淆任何可识别信息（如 IP 地址、用户代理等）后再进行数据传输，确保隐私安全。
利用浏览器扩展 API 检测跟踪技术，包括指纹识别、Cookie 及存储机制，基于 [30] 中既有的检测技术。
通过安全的数据处理管道大规模聚合数据，确保单条消息无法被逆匿名化，从而保护用户隐私。
维护一个公开的、开放的数据库，将 1,000 多个跟踪器域名映射至其对应的服务和公司，提升透明度。
以宽松的知识共享许可协议（Creative Commons）发布每月汇总的跟踪器流行度、网站覆盖范围及跟踪方法统计数据。

实验结果

研究问题

RQ1在全球网络的真实浏览条件下，第三方跟踪器的真实流行度和分布情况如何？
RQ2不同网站、地理区域、互联网服务提供商（ISP）和浏览器配置下，跟踪行为有何差异？
RQ3跟踪行为随时间的长期演变趋势如何，特别是在 GDPR 等监管政策实施后？
RQ4与基于合成爬虫的方法相比，真实用户数据在提升跟踪测量的准确性与相关性方面有何优势？
RQ5自动化、隐私保护的数据收集方式在多大程度上可支持更有效的隐私工具与黑名单的开发？

主要发现

本研究在 12 个月内收集了 15 亿次页面加载的数据，是迄今规模最大、持续时间最长的在线跟踪测量研究。
平均每月测量约 1 亿次页面加载，自 2018 年 4 月起增长至每月超过 3 亿次。
数据集包含约 950 个独立跟踪器和 1,300 个热门网站的详细统计信息，涵盖其跟踪方法与覆盖范围。
项目维护一个公开数据库，将 1,000 多个跟踪器域名映射至其对应的服务与公司，显著提升透明度。
数据支持对跟踪趋势的长期分析，包括评估 GDPR 在 2018 年 5 月实施后的影响。
系统成功捕获了以往难以访问环境中的跟踪行为，如认证页面、付费墙内容，以及 Facebook 和 LinkedIn 等封闭生态平台。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。