[論文レビュー] WhoTracks.Me: Monitoring the online tracking landscape at scale.
本論文では、多様な環境で実際のユーザーのブラウジングデータを収集する、クラウドソーシング型のブラウザ拡張機能を用いた大規模かつプライバシー保護型のオンライン追跡測定である WhoTracks.Me を提示する。本研究では10か月間にわたり7億8000万件を超えるページロードを記録し、従来のプラットフォームベースの手法よりも正確で透明性の高い追跡エコシステムの把握が可能となった。
We present the largest and longest measurement of online tracking to date based on real users. The data, which is made publicly available, is generated from more than 780 million page loads over the course of the last 10 months. Previous attempts to measure the tracking ecosystem, are done via measurement platforms that do not interact with websites the same way a user does. We instrument a crowd-sourced measurement of third-parties across the web via users who consent to data collection via a browser extension. The collection is done with privacy-by-design in mind, and introduces no privacy side effects. This approach overcomes limitations of previous work by collecting real web usage across multiple countries, ISP and browser configurations, and on difficult to crawl pages, such as those behind logins, giving a more accurate portrayal of the online-tracking ecosystem. The data, which we plan to continue contributing to and maintain in the future, and WhoTracks.Me website - the living representation of the data, are available for researchers, regulators, journalists, web developers and users to detect tracking behaviours, analyse the tracking landscape, develop efficient tools, devise policies and raise awareness of the negative externalities tracking introduces. We believe this work provides the transparency needed to shine a light on a very opaque industry.
研究の動機と目的
- 合成的またはプラットフォームベースの追跡測定の限界を克服し、実際のユーザーのブラウジング行動を捉えること。
- 多様なウェブ環境において、第三者的な追跡を透明性・スケーラビリティ・プライバシー保護を兼ね備えた方法で測定する。
- 追跡行動の研究、政策立案、ツール開発を支援するため、公開可能で継続的更新が可能なデータセットと可視化プラットフォームを構築すること。
- ログイン壁の背後にいるページのような、収集が難しいページにおける追跡行動の検出と分析を可能にすること。
提案手法
- 同意したユーザーからのみ追跡データを収集するブラウザ拡張機能を導入し、プライバシー設計を徹底し、副作用を回避する。
- 複数の国、ISP、ブラウザ設定をカバーする現実世界のブラウジングデータを収集し、実際のユーザー体験を反映する。
- 通常のウェブナビゲーション中に第三者的な追跡スクリプトおよびトラッカーを検出・ログ記録するように拡張機能をインストルメント化する。
- 10か月間にわたり7億8000万件を超えるページロードからのデータを集約し、統計的妥当性を確保する。
- 公開可能なデータセットと、追跡行動をリアルタイムで可視化・探索可能な動的サイト(WhoTracks.Me)を維持する。
- ユーザーのファーザープrint(指紋)化やその他のプライバシー侵害技術を回避するようにシステムを設計し、ユーザーの匿名性を保証する。
実験結果
リサーチクエスチョン
- RQ1実際のユーザー環境下で、グローバルなウェブ上で第三者的なトラッカーはどの程度広がっているか?
- RQ2国、ISP、ブラウザタイプごとに追跡行動にどのような差があるか?
- RQ3ログインが必要なページのような、クローリングが難しいページではトラッカーはどのように振る舞うか?
- RQ4本番環境で使用されている追跡技術の規模と多様性はどの程度か?
- RQ5合成的またはプラットフォームベースの手法と比較して、実ユーザーのデータは追跡測定の正確性をどのように向上させるか?
主な発見
- 本研究では、複数の国、ISP、ブラウザ設定をカバーする実ユーザーから、7億8000万件を超えるページロードを収集し、これまでにない規模かつ期間のオンライン追跡測定を実現した。
- データは、追跡がウェブ全体に広がっていることを示しており、従来の測定で除外されがちなログイン画面の背後にいるページに対しても同様に顕在している。
- プライバシー保護型のブラウザ拡張機能を用いたクラウドソーシング手法により、プライバシーの副作用を伴わず、実際のユーザー行動を的確に捉えることに成功した。
- データセットと WhoTracks.Me ウェブサイトは、追跡エコシステムの動的かつ最新の表現を提供し、継続的な分析と透明性を可能にしている。
- 本研究では、合成的またはプラットフォームベースのアプローチと比較して、実ユーザーのデータが追跡測定の正確性を顕著に向上させることを示した。
- 公開されたデータセットとプラットフォームは、すでに研究者、規制当局、ジャーナリスト、開発者が追跡行動を調査し、政策立案に活用するために使用されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。