Skip to main content
QUICK REVIEW

[論文レビュー] WhoTracks .Me: Shedding light on the opaque world of online tracking

Arjaldo Karaj, Sam Macbeth|arXiv (Cornell University)|Apr 24, 2018
Privacy, Security, and Data Protection参考文献 13被引用数 23
ひとこと要約

本稿では、500万人以上のユーザーに配布されたプライバシー保護型ブラウザ拡張機能を用いて、大規模かつ縦断的なオンライン追跡の測定を実施したWhoTracks.Meを提示する。12か月間にわたり15億件のページロードにおいて、匿名化されたデータを収集し、ユーザーのプライバシーを保護しながら現実世界の追跡分析を可能にした。本研究では、データセットおよびトラッカー・データベースを公開し、研究、規制、透明性の向上を支援する。

ABSTRACT

Online tracking has become of increasing concern in recent years, however our understanding of its extent to date has been limited to snapshots from web crawls. Previous at-tempts to measure the tracking ecosystem, have been done using instrumented measurement platforms, which are not able to accurately capture how people interact with the web. In this work we present a method for the measurement of tracking in the web through a browser extension, as well as a method for the aggregation and collection of this information which protects the privacy of participants. We deployed this extension to more than 5 million users, enabling measurement across multiple countries, ISPs and browser configurations, to give an accurate picture of real-world tracking. The result is the largest and longest measurement of online tracking to date based on real users, covering 1.5 billion page loads gathered over 12 months. The data, detailing tracking behaviour over a year, is made publicly available to help drive transparency around online tracking practices.

研究の動機と目的

  • 実際のユーザーのブラウジング行動を大規模に測定することで、オンライン追跡に関する現実的で縦断的なデータの不足を解消すること。
  • クローリングベースの手法が偏りをもたらし、認証済み環境やウォールド・ガーデン環境における追跡を捉えられないという限界を克服すること。
  • 多様なブラウザ、ISP、地理的場所をカバーする現実のユーザー体験を反映した、透明性とプライバシー保護を重視した追跡エコシステムの測定手法を提供すること。
  • 研究者、規制当局、ジャーナリスト、開発者らが、オープンで匿名化されたデータおよび検索可能なトラッカー・データベースを活用し、オンライン追跡慣行に関する認識向上と責任体制の強化を図ること。

提案手法

  • 500万人以上の同意を得たユーザーにブラウザ拡張機能を配布し、通常のブラウジング行動中に第三者トラッカーのリアルタイムデータを収集する。
  • クライアント側で識別可能な情報(例:IPアドレス、ユーザーエージェントなど)を削除または偽装することで、プライバシー・バイ・デザインの原則を適用する。
  • 既存の検出技術[30]を基に、ブラウザ拡張機能APIを用いて、フォグネーピング、クッキー、ストレージメカニズムなどの追跡手法を検出する。
  • 個人のメッセージが再匿名化できないよう、安全なパイプラインを用いて大規模にデータを集約し、ユーザーのプライバシーを保護する。
  • 1,000以上のトラッカー・ドメインをその関連サービスおよび企業にマッピングする公開でオープンなデータベースを維持し、透明性を高める。
  • トラッカーの出現頻度、サイト到達率、追跡手法に関する月次集計統計を、許可の緩いクリエイティブ・コモンズ・ライセンスのもとで公開する。

実験結果

リサーチクエスチョン

  • RQ1現実のブラウジング環境下で、グローバルウェブ全体に広がる第三者トラッカーの真の出現頻度と分布はどのようになっているか?
  • RQ2トラッキング慣行は、異なるウェブサイト、地理的地域、ISP、ブラウザ設定によってどのように変化するか?
  • RQ3時間経過に伴うトラッキング行動の縦断的変化はどのようなものか。特に、GDPRの導入といった規制変更への反応は?
  • RQ4実ユーザーのデータは、合成的なクローリングベースの手法と比較して、追跡測定の正確性と関連性をどのように向上させるか?
  • RQ5自動化され、プライバシー保護が施されたデータ収集は、より効果的なプライバシー保護ツールやブロッキングリストの開発をどの程度支援できるか?

主な発見

  • 本研究では、12か月間にわたり15億件のページロードからデータを収集し、これまでにない規模かつ期間のオンライン追跡測定となった。
  • 平均して月間1億件のページロードが測定されていたが、2018年4月以降は3億件を超えるまでに増加した。
  • データセットには、約950のユニークなトラッカーと1,300の一般的なウェブサイトに関する詳細な統計が含まれており、追跡手法と到達範囲の情報が提供されている。
  • 本プロジェクトでは、1,000以上のトラッカー・ドメインをその関連サービスおよび企業にマッピングする公開データベースを維持しており、透明性が向上している。
  • データを用いることで、GDPRの2018年5月の導入といった規制変更の影響を評価できる縦断的分析が可能になった。
  • 本システムは、認証済みページ、課金制コンテンツ、Facebook や LinkedIn などのウォールド・ガーデン環境における追跡行動を、従来はアクセス不可能だった領域で成功裏に捉えた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。