Skip to main content
QUICK REVIEW

[论文解读] Exposing the Hidden Web: An Analysis of Third-Party HTTP Requests on 1 Million Websites

Timothy Libert|arXiv (Cornell University)|Nov 2, 2015
Internet Traffic Analysis and Secure E-voting参考文献 22被引用 59
一句话总结

本研究分析了100万个顶级网站上的第三方HTTP请求,揭示了广泛存在的隐蔽跟踪行为:89%的网站将用户数据泄露给用户可能不知情的第三方,61%的网站设置了第三方Cookie,83%的网站加载了外部JavaScript。研究发现谷歌是主导跟踪者,80%的网站与谷歌的域名进行通信,且20%的网站可能易受美国国家安全局(NSA)监视的影响,凸显尽管存在Do Not Track(DNT)标准,但主要跟踪者普遍无视该标准,暴露出系统性的隐私缺陷。

ABSTRACT

This article provides a quantitative analysis of privacy-compromising mechanisms on 1 million popular websites. Findings indicate that nearly 9 in 10 websites leak user data to parties of which the user is likely unaware; more than 6 in 10 websites spawn third- party cookies; and more than 8 in 10 websites load Javascript code from external parties onto users' computers. Sites that leak user data contact an average of nine external domains, indicating that users may be tracked by multiple entities in tandem. By tracing the unintended disclosure of personal browsing histories on the Web, it is revealed that a handful of U.S. companies receive the vast bulk of user data. Finally, roughly 1 in 5 websites are potentially vulnerable to known National Security Agency spying techniques at the time of analysis.

研究动机与目标

  • 使用真实世界数据,量化分析顶级一百万个网站上的第三方跟踪行为范围。
  • 识别在全网范围内负责用户数据收集与跟踪的主要企业。
  • 评估主要跟踪者对Do Not Track(DNT)标准的有效性与采纳程度。
  • 通过分析网站漏洞,评估潜在的国家层面监视(如NSA监视)的可能性。
  • 通过提供基于数据的洞察,弥合技术研究与政策之间的鸿沟,为隐私监管提供支持。

提出的方法

  • 从Alexa排名前一百万名网站收集并分析第三方HTTP请求。
  • 开发并使用一款名为webXray的开源工具,自动化检测第三方域名、Cookie及JavaScript资源。
  • 追踪数据流,识别哪些外部域名接收用户浏览数据。
  • 通过在网站中出现的频率,绘制主要跟踪企业的地图。
  • 通过分析主要跟踪者的隐私政策和技术行为,评估其对DNT头标的合规性。
  • 利用泄露的内部文件,评估网站对NSA监视技术的潜在脆弱性。

实验结果

研究问题

  • RQ1第三方跟踪在顶级一百万个网站中有多普遍?
  • RQ2哪些企业是第三方请求中用户数据的主要接收方?
  • RQ3主要跟踪者在多大程度上尊重Do Not Track(DNT)头标?
  • RQ4有多少网站可能易受已知NSA监视技术的影响?
  • RQ5数据泄露网站平均会联系多少个外部域名?

主要发现

  • 在所分析的顶级一百万个网站中,89%将用户数据泄露给用户可能不知情的第三方域名。
  • 61%的网站设置了第三方Cookie,从而实现在多个网站间对用户的长期跟踪。
  • 83%的网站从外部域名加载JavaScript代码,通常用于跟踪或分析目的。
  • 数据泄露的网站平均会联系九个外部域名,表明多个实体之间存在协同跟踪行为。
  • 谷歌是主导跟踪者,在近80%的分析网站中存在。
  • 尽管公开支持DNT,但十大跟踪公司中90%无视DNT头标,仅有Twitter遵守。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。