Skip to main content
QUICK REVIEW

[논문 리뷰] Exposing the Hidden Web: An Analysis of Third-Party HTTP Requests on 1 Million Websites

Timothy Libert|arXiv (Cornell University)|2015. 11. 02.
Internet Traffic Analysis and Secure E-voting참고 문헌 22인용 수 59
한 줄 요약

이 연구는 약 100만 개의 상위 웹사이트에서의 제3자 HTTP 요청을 분석하여 광범위한 암묵적 추적을 규명한다: 사용자가 알지 못하는 당사자들에게 89%가 사용자 데이터를 泄露하며, 61%는 제3자 쿠키를 설정하고, 83%는 외부 자바스크립트를 로드한다. 연구는 구글이 주요 추적자로 떠오르며, 80%의 웹사이트가 그 도메인과 연락을 맺고 있음을 확인했고, 20%의 웹사이트가 국가정보원(NASA) 감시에 잠재적으로 취약한 것으로 밝혀져, 기존의 Do Not Track(DNT) 표준이 널리 무시됨에도 불구하고 체계적인 프라이버시 실패가 존재함을 시사한다.

ABSTRACT

This article provides a quantitative analysis of privacy-compromising mechanisms on 1 million popular websites. Findings indicate that nearly 9 in 10 websites leak user data to parties of which the user is likely unaware; more than 6 in 10 websites spawn third- party cookies; and more than 8 in 10 websites load Javascript code from external parties onto users' computers. Sites that leak user data contact an average of nine external domains, indicating that users may be tracked by multiple entities in tandem. By tracing the unintended disclosure of personal browsing histories on the Web, it is revealed that a handful of U.S. companies receive the vast bulk of user data. Finally, roughly 1 in 5 websites are potentially vulnerable to known National Security Agency spying techniques at the time of analysis.

연구 동기 및 목표

  • 실제 데이터를 활용하여 상위 100만 개 웹사이트에서의 제3자 추적 범위를 정량적으로 분석하기 위해.
  • 웹 전반에서 사용자 데이터 수집 및 추적을 담당하는 주요 기업을 특정하기 위해.
  • 주요 추적자들 사이에서 Do Not Track(DNT) 표준의 효과성과 도입 정도를 평가하기 위해.
  • 유출된 내부 문서를 활용하여 웹사이트의 취약성을 분석함으로써 국가정보원(NSA) 감시 기술에 대한 잠재적 취약성 평가하기.
  • 기술적 연구와 정책 간 격차를 메우기 위해 프라이버시 규제를 위한 데이터 기반 통찰을 제공하기 위해.

제안 방법

  • 알렉사 순위 기준으로 선정된 100만 개의 웹사이트에서 제3자 HTTP 요청을 수집하고 분석하였다.
  • 제3자 도메인, 쿠키, 자바스크립트 리소스 탐지에 자동화된 도구인 오픈소스 도구 webXray를 개발하고 사용하였다.
  • 사용자 브라우징 데이터가 전송되는 외부 도메인을 식별하기 위해 데이터 흐름을 추적하였다.
  • 웹사이트 전반에서 출현 빈도가 높은 추적 기업들을 도메인 빈도 기반으로 매핑하였다.
  • 상위 추적자들의 개인정보 정책과 기술적 행동을 분석하여 DNT 헤더 준수 여부를 평가하였다.
  • 유출된 내부 문서를 활용하여 웹사이트가 NSA 감시 기술에 취약한지 평가하였다.

실험 결과

연구 질문

  • RQ1상위 100만 개 웹사이트 전반에서 제3자 추적은 얼마나 광범위하게 퍼져 있는가?
  • RQ2제3자 요청으로부터 사용자 데이터를 수령하는 주요 기업은 누구인가?
  • RQ3주요 추적자들이 Do Not Track(DNT) 헤더를 어느 정도 존중하는가?
  • RQ4얼마나 많은 웹사이트가 알려진 NSA 감시 기술에 잠재적으로 취약한가?
  • RQ5사용자 데이터를 泄露하는 웹사이트들이 평균적으로 몇 개의 외부 도메인과 연락을 맺는가?

주요 결과

  • 상위 100만 개 웹사이트 중 89%가 사용자가 알지 못하는 제3자 도메인에 사용자 데이터를 泄露한다.
  • 61%의 웹사이트가 제3자 쿠키를 설정하여 사이트 간 장기적인 사용자 추적를 가능하게 한다.
  • 83%의 웹사이트가 외부 도메인에서 자바스크립트 코드를 로드하며, 이는 일반적으로 추적 또는 분석 목적이다.
  • 데이터를 泄露하는 웹사이트들은 평균적으로 아홉 개의 외부 도메인과 연락을 맺고 있어, 여러 기관이 협력하여 추적하고 있음을 시사한다.
  • 구글은 주요 추적자로 떠오르며, 분석된 웹사이트의 거의 80%에서 발견된다.
  • DNT에 대한 공식적 지지에도 불구하고 상위 10개 추적 기업 중 90%는 Do Not Track 헤더를 무시하며, 오직 트위터만 이 헤더를 존중한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.