[논문 리뷰] WhoTracks.Me: Monitoring the online tracking landscape at scale.
이 논문은 실사용자 브라우저 확장 프로그램을 활용해 다양한 환경에서 실질적인 사용자 브라우징 데이터를 수집하는 대규모이며 개인정보 보호 기반의 온라인 추적 측정 도구인 WhoTracks.Me를 제시한다. 연구는 10개월 동안 7억 8천만 건 이상의 페이지 로드를 캡처하여 기존 플랫폼 기반 방법보다 더 정확하고 투명한 추적 생태계의 그림을 제공한다.
We present the largest and longest measurement of online tracking to date based on real users. The data, which is made publicly available, is generated from more than 780 million page loads over the course of the last 10 months. Previous attempts to measure the tracking ecosystem, are done via measurement platforms that do not interact with websites the same way a user does. We instrument a crowd-sourced measurement of third-parties across the web via users who consent to data collection via a browser extension. The collection is done with privacy-by-design in mind, and introduces no privacy side effects. This approach overcomes limitations of previous work by collecting real web usage across multiple countries, ISP and browser configurations, and on difficult to crawl pages, such as those behind logins, giving a more accurate portrayal of the online-tracking ecosystem. The data, which we plan to continue contributing to and maintain in the future, and WhoTracks.Me website - the living representation of the data, are available for researchers, regulators, journalists, web developers and users to detect tracking behaviours, analyse the tracking landscape, develop efficient tools, devise policies and raise awareness of the negative externalities tracking introduces. We believe this work provides the transparency needed to shine a light on a very opaque industry.
연구 동기 및 목표
- 합성 또는 플랫폼 기반 추적 측정의 한계를 극복하기 위해 실제 사용자 브라우징 행동을 캡처하기 위해.
- 다양한 웹 환경에서 제3자 추적을 측정하기 위한 투명하고 확장 가능하며 개인정보 보호 기반의 방법을 제공하기 위해.
- 연구, 정책, 도구 개발을 지원하기 위해 공개 접근이 가능한 살아있는 데이터셋과 시각화 플랫폼을 구축하기 위해.
- 로그인 벽 뒤에 있는 페이지와 같이 접근하기 어려운 페이지에서의 추적 방식을 탐지하고 분석할 수 있도록 하기 위해.
제안 방법
- 동의한 사용자로부터만 추적 데이터를 수집하는 브라우저 확장 프로그램을 구현하여 개인정보 보호 설계 원칙을 준수하고 부작용을 방지하기 위해.
- 다양한 국가, 인터넷 서비스 제공자(ISP), 브라우저 설정에서 실제 사용자 경험을 반영하기 위해 실세계 브라우징 데이터를 수집하기 위해.
- 일반적인 웹 탐색 중에 제3자 추적 스크립트 및 추적자를 탐지하고 로그 기록하기 위해 확장 프로그램을 인스트루멘테이션하기 위해.
- 통계적 탄력성을 확보하기 위해 10개월 동안 7억 8천만 건 이상의 페이지 로드에서 데이터를 집계하기 위해.
- 실시간으로 추적 행동을 시각화하고 탐색할 수 있도록 공개된 데이터셋과 동적 웹사이트(WhoTracks.Me)를 유지하기 위해.
- 사용자 익명성을 보장하기 위해 지문 추적 및 기타 개인정보 침해 기법을 피하는 방식으로 시스템을 설계하기 위해.
실험 결과
연구 질문
- RQ1실제 사용자 조건 하에서 글로벌 웹 전반에 걸쳐 제3자 추적기가 얼마나 널리 퍼져 있는가?
- RQ2국가, ISP, 브라우저 유형 간에 추적 행동에 어떤 차이가 있는가?
- RQ3로그인을 요구하는 페이지와 같이 크롤링이 어려운 페이지에서는 추적기가 어떻게 행동하는가?
- RQ4실제 운영 환경에서 사용되는 추적 기술의 규모와 다양성은 어떠한가?
- RQ5합성 또는 플랫폼 기반 방법에 비해 실사용자 데이터는 추적 측정 정확도를 어떻게 향상시키는가?
주요 결과
- 연구는 다양한 국가, ISP, 브라우저 설정에서 실사용자로부터 7억 8천만 건 이상의 페이지 로드를 수집하여, 지금까지 가장 크고 장기적인 온라인 추적 측정을 수행했다.
- 데이터는 추적의 광범위한 보편성을 드러내며, 기존 측정에서 일반적으로 제외되는 로그인 화면 뒤의 페이지에서도 추적이 널리 퍼져 있음을 보여준다.
- 개인정보 보호 기반 브라우저 확장 프로그램을 활용한 커뮤니티 기반 접근 방식이 부작용 없이 실제 사용자 행동을 성공적으로 캡처했다.
- 데이터셋과 WhoTracks.Me 웹사이트는 추적 생태계의 살아있는 실시간 표현을 제공하여 지속적인 분석과 투명성을 가능하게 한다.
- 실사용자 데이터가 합성 또는 플랫폼 기반 접근 방식에 비해 추적 측정 정확도를 크게 향상시킨다는 점을 입증했다.
- 공개된 데이터셋과 플랫폼은 연구자, 규제 기관, 기자, 개발자들이 추적 행동을 연구하고 정책에 영향을 주기 위해 이미 활용되고 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.