[論文レビュー] Exposing the Hidden Web: An Analysis of Third-Party HTTP Requests on 1 Million Websites
本研究では、上位100万サイトにおける第三者HTTPリクエストを分析し、広範な陰性追跡の実態を明らかにした。89%のサイトがユーザーのデータをユーザーがおそらく認識していない第三者に漏洩しており、61%が第三者Cookieを設定し、83%が外部JavaScriptをロードしている。研究では、Googleが主要なトラッカーであることが判明し、80%のサイトがGoogleのドメインに接続している。また、20%のサイトがNSA監視の可能性を有する脆弱性を有していることが判明し、DNT(Do Not Track)基準が広く無視されているにもかかわらず、システム的なプライバシーの欠陥が浮き彫りになった。
This article provides a quantitative analysis of privacy-compromising mechanisms on 1 million popular websites. Findings indicate that nearly 9 in 10 websites leak user data to parties of which the user is likely unaware; more than 6 in 10 websites spawn third- party cookies; and more than 8 in 10 websites load Javascript code from external parties onto users' computers. Sites that leak user data contact an average of nine external domains, indicating that users may be tracked by multiple entities in tandem. By tracing the unintended disclosure of personal browsing histories on the Web, it is revealed that a handful of U.S. companies receive the vast bulk of user data. Finally, roughly 1 in 5 websites are potentially vulnerable to known National Security Agency spying techniques at the time of analysis.
研究の動機と目的
- 実世界のデータを用いて、上位100万サイトにおける第三者トラッキングの広がりを定量化すること。
- Web全体にわたるユーザーのデータ収集およびトラッキングの主な企業を同定すること。
- 主要トラッカーにおけるDo Not Track(DNT)基準の有効性と採用状況を評価すること。
- 内部文書のリークをもとに、NSA監視技術の既知の手法によるサイトの脆弱性を分析すること。
- 技術的リサーチと政策のギャップを埋めるために、プライバシー規制に役立つデータドリブンな知見を提供すること。
提案手法
- Alexa順位による上位100万サイトの第三者HTTPリクエストを収集・分析した。
- 第三者ドメイン、Cookie、JavaScriptリソースの検出を自動化するために、オープンソースのツール「webXray」を開発・使用した。
- ユーザーのブラウジングデータが送信される外部ドメインを特定するために、データフローを追跡した。
- サイト全体にわたる出現頻度をもとに、主要トラッキング企業をマッピングした。
- プライバシーポリシーと主要トラッカーの技術的行動を分析することで、DNTヘッダーへの準拠状況を評価した。
- リークされた内部文書を用いて、NSA監視技術の手法によるサイトの脆弱性を評価した。
実験結果
リサーチクエスチョン
- RQ1上位100万サイトにおける第三者トラッキングはどの程度広がっているか?
- RQ2第三者リクエストからのユーザーのデータを主に受け取っている企業はどれか?
- RQ3主要トラッカーはどの程度、Do Not Track(DNT)ヘッダーを尊重しているか?
- RQ4何パーセントのサイトが、既知のNSA監視手法の影響を受ける可能性があるか?
- RQ5ユーザーのデータを漏洩させるサイトが平均して何個の外部ドメインに接続しているか?
主な発見
- 上位100万サイトの89%が、ユーザーがおそらく認識していない第三者ドメインにユーザーのデータを漏洩している。
- 61%のサイトが第三者Cookieを設定しており、これにより複数サイトにわたる長期的なユーザー追跡が可能になっている。
- 83%のサイトが外部ドメインからのJavaScriptコードをロードしており、多くがトラッキングや分析の目的である。
- データを漏洩させるサイトは平均で9つの外部ドメインに接続しており、複数のエージェンシーによる一元的トラッキングが行われていることが示された。
- Googleは支配的なトラッカーであり、分析対象サイトのほぼ80%に存在している。
- DNTへの公的支援があるにもかかわらず、上位10社のトラッキング会社の90%がDNTヘッダーを無視しており、Twitter以外はこれを尊重していない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。