[论文解读] WhoTracks.Me: Monitoring the online tracking landscape at scale.
本文提出 WhoTracks.Me,一种大规模、隐私保护的在线追踪测量方法,通过众包浏览器扩展收集跨多样化环境的真实用户浏览数据。该研究在10个月内捕获了超过7.8亿次页面加载,提供了比以往基于平台的方法更准确、更透明的追踪生态系统视图。
We present the largest and longest measurement of online tracking to date based on real users. The data, which is made publicly available, is generated from more than 780 million page loads over the course of the last 10 months. Previous attempts to measure the tracking ecosystem, are done via measurement platforms that do not interact with websites the same way a user does. We instrument a crowd-sourced measurement of third-parties across the web via users who consent to data collection via a browser extension. The collection is done with privacy-by-design in mind, and introduces no privacy side effects. This approach overcomes limitations of previous work by collecting real web usage across multiple countries, ISP and browser configurations, and on difficult to crawl pages, such as those behind logins, giving a more accurate portrayal of the online-tracking ecosystem. The data, which we plan to continue contributing to and maintain in the future, and WhoTracks.Me website - the living representation of the data, are available for researchers, regulators, journalists, web developers and users to detect tracking behaviours, analyse the tracking landscape, develop efficient tools, devise policies and raise awareness of the negative externalities tracking introduces. We believe this work provides the transparency needed to shine a light on a very opaque industry.
研究动机与目标
- 通过捕捉真实用户浏览行为,克服合成数据或基于平台的追踪测量方法的局限性。
- 提供一种透明、可扩展且隐私保护的测量方法,用于跨多样化网络环境的第三方追踪行为。
- 创建一个公开可访问、持续更新的数据集和可视化平台,以支持研究、政策制定和工具开发。
- 实现对登录墙后页面等难以抓取页面的追踪行为检测与分析。
提出的方法
- 部署仅从同意用户收集追踪数据的浏览器扩展,确保隐私优先设计且无副作用。
- 在多个国家、互联网服务提供商(ISPs)和浏览器配置下收集真实世界的浏览数据,以反映实际用户使用体验。
- 通过扩展插件在正常网页浏览过程中检测并记录第三方追踪脚本和追踪器。
- 在10个月期间聚合超过7.8亿次页面加载的数据,以确保统计稳健性。
- 维护一个公开可访问的数据集和一个动态网站(WhoTracks.Me),用于实时可视化和探索追踪行为。
- 设计系统时避免指纹识别等侵犯隐私的技术,确保用户匿名性。
实验结果
研究问题
- RQ1在全球网络环境下,真实用户条件下第三方追踪器的普遍程度如何?
- RQ2在不同国家、互联网服务提供商(ISPs)和浏览器类型之间,追踪行为有何差异?
- RQ3在需要登录的页面(如登录墙后页面)上,追踪器的行为如何?
- RQ4生产环境中使用的追踪技术的规模和多样性如何?
- RQ5与合成数据或基于平台的方法相比,真实用户数据如何提升追踪测量的准确性?
主要发现
- 该研究从全球多个地区、互联网服务提供商(ISPs)和浏览器配置的真实用户中收集了超过7.8亿次页面加载数据,提供了迄今为止最大规模且持续时间最长的在线追踪测量。
- 数据显示,追踪在网页中普遍存在,包括通常被先前测量所排除的登录墙后页面。
- 采用隐私保护型浏览器扩展的众包方法成功捕捉了真实用户行为,且未引入隐私副作用。
- 该数据集和 WhoTracks.Me 网站提供了追踪生态系统的动态、实时更新视图,支持持续分析与透明度。
- 本研究证明,与合成数据或基于平台的方法相比,真实用户数据能显著提升追踪测量的准确性。
- 公开可用的数据集和平台已广泛被研究人员、监管机构、记者和开发者用于研究追踪行为并支持政策制定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。