Skip to main content
QUICK REVIEW

[논문 리뷰] WhoTracks .Me: Shedding light on the opaque world of online tracking

Arjaldo Karaj, Sam Macbeth|arXiv (Cornell University)|2018. 04. 24.
Privacy, Security, and Data Protection참고 문헌 13인용 수 23
한 줄 요약

이 논문은 500만 명 이상의 사용자에게 배포된 프라이버시 보호형 브라우저 확장 기능을 통해 대규모이고 종단 간의 온라인 추적 측정을 제안한다. 12개월 동안 15억 건의 페이지 로드에 걸쳐 제3자 추적자에 대한 익명화된 데이터를 수집함으로써 사용자 프라이버시를 보호하면서도 실제 세계의 추적 분석을 가능하게 하며, 연구, 규제, 투명성 향상을 위해 데이터셋과 추적자 데이터베이스를 공개한다.

ABSTRACT

Online tracking has become of increasing concern in recent years, however our understanding of its extent to date has been limited to snapshots from web crawls. Previous at-tempts to measure the tracking ecosystem, have been done using instrumented measurement platforms, which are not able to accurately capture how people interact with the web. In this work we present a method for the measurement of tracking in the web through a browser extension, as well as a method for the aggregation and collection of this information which protects the privacy of participants. We deployed this extension to more than 5 million users, enabling measurement across multiple countries, ISPs and browser configurations, to give an accurate picture of real-world tracking. The result is the largest and longest measurement of online tracking to date based on real users, covering 1.5 billion page loads gathered over 12 months. The data, detailing tracking behaviour over a year, is made publicly available to help drive transparency around online tracking practices.

연구 동기 및 목표

  • 실제 사용자 브라우징 행동을 대규모로 측정함으로써 온라인 추적에 대한 실세계 종단 간 데이터의 부족을 해소하기 위해.
  • 크롤링 기반 방법에서 유도되는 편향과 신원 확인 또는 월마운드 환경에서의 추적을 포착하지 못하는 한계를 극복하기 위해.
  • 다양한 브라우저, 인터넷 서비스 제공자(ISP), 지리적 위치에서 실제 사용자 경험을 반영하는 투명하고 프라이버시 보호형 추적 생태계 측정 방법을 제공하기 위해.
  • 연구자, 규제 기관, 기자, 개발자들이 개방형 익명화된 데이터와 검색 가능한 추적자 데이터베이스를 통해 온라인 추적 관행에 대한 인식과 책임성을 향상시킬 수 있도록 지원하기 위해.

제안 방법

  • 500만 명 이상의 동의한 사용자에게 브라우저 확장 기능을 배포하여 일상적인 브라우징 활동 중 제3자 추적자를 실시간으로 측정한다.
  • 사용자 측에서 데이터 전송 이전에 식별 가능한 정보(예: IP 주소, 사용자 에이전트)를 제거하거나 가로막는 프라이버시 우선 설계 원칙을 적용한다.
  • 이전의 탐지 기법 [30]을 기반으로 브라우저 확장 기능 API를 사용해 프라이버시 흔적, 쿠키, 스토리지 메커니즘 등의 추적 방법을 탐지한다.
  • 개인 메시지가 재개인화될 수 없도록 보장하는 안전한 파이프라인을 사용해 대규모로 데이터를 집계함으로써 사용자 프라이버시를 유지한다.
  • 1,000개 이상의 추적자 도메인을 그들이 관련된 서비스 및 기업과 매핑하는 공개된 데이터베이스를 유지하여 투명성을 향상시킨다.
  • 유연한 크리에이티브 커먼즈 라이선스 하에 매월 집계된 추적자 유통률, 사이트 도달률, 추적 방법 통계를 공개한다.

실험 결과

연구 질문

  • RQ1실제 브라우징 환경에서 글로벌 웹 전반에 걸쳐 제3자 추적자의 진정한 유통률과 분포는 어떠한가?
  • RQ2웹사이트, 지리적 지역, ISP, 브라우저 설정에 따라 추적 관행은 어떻게 다를까?
  • RQ3특히 GDPR과 같은 규제 변화에 대응하여 추적 행동이 시간에 따라 어떻게 변화해 왔는가?
  • RQ4실제 사용자 데이터가 합성 크롤링 기반 방법에 비해 추적 측정의 정확성과 관련성에 어떻게 기여할 수 있는가?
  • RQ5자동화된 프라이버시 보호형 데이터 수집 방식이 더 효과적인 프라이버시 도구와 차단 목록 개발을 얼마나 잘 지원할 수 있는가?

주요 결과

  • 본 연구는 12개월 동안 총 15억 건의 페이지 로드에서 데이터를 수집하여, 지금까지 가장 대규모이고 장기적인 온라인 추적 측정으로 기록되었다.
  • 평균적으로 매달 1억 건의 페이지 로드를 측정했으며, 2018년 4월 이후에는 매달 3억 건을 초과로 증가했다.
  • 데이터셋에는 약 950개의 고유 추적자와 1,300개의 인기 있는 웹사이트에 대한 세부 통계가 포함되어 있으며, 추적 방법과 도달 범위 정보를 포함한다.
  • 프로젝트는 1,000개 이상의 추적자 도메인을 해당 서비스 및 기업과 매핑하는 공개 데이터베이스를 유지하여 투명성을 향상시켰다.
  • 데이터를 통해 추적 트렌드의 종단 간 분석이 가능해졌으며, 특히 2018년 5월 GDPR 시행의 영향을 평가할 수 있었다.
  • 이전에는 접근이 어려웠던 환경, 예를 들어 신원 확인 페이지, 유료 콘텐츠, 페이스북이나 링크드인과 같은 월마운드 생태계 내에서의 추적 행동을 성공적으로 캡처했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.