Skip to main content
QUICK REVIEW

[논문 리뷰] Tracing Information Flows Between Ad Exchanges Using Retargeted Ads

Muhammad Ahmad Bashir, Sajjad Arshad|arXiv (Cornell University)|2018. 11. 02.
Privacy, Security, and Data Protection참고 문헌 40인용 수 25
한 줄 요약

이 논문은 리타겟 광고를 프로브로 활용하여 광고 교환 간 클라이언트 및 서버 측 정보 흐름을 탐지하는 새로운 의미론 기반 방법론을 제안한다. 기존 히ュ리스틱 기반의 이전 방법들이 놓쳤던 이전에 알려지지 않은 흐름 포함 4개 유형의 데이터 공유를 식별하며, 리타겟팅을 위한 구글의 서비스 간 데이터 공유에 대한 실증적 증거를 제공한다.

ABSTRACT

Numerous surveys have shown that Web users are concerned about the loss of privacy associated with online tracking. Alarmingly, these surveys also reveal that people are also unaware of the amount of data sharing that occurs between ad exchanges, and thus underestimate the privacy risks associated with online tracking. In reality, the modern ad ecosystem is fueled by a flow of user data between trackers and ad exchanges. Although recent work has shown that ad exchanges routinely perform cookie matching with other exchanges, these studies are based on brittle heuristics that cannot detect all forms of information sharing, especially under adversarial conditions. In this study, we develop a methodology that is able to detect client- and server-side flows of information between arbitrary ad exchanges. Our key insight is to leverage retargeted ads as a tool for identifying information flows. Intuitively, our methodology works because it relies on the semantics of how exchanges serve ads, rather than focusing on specific cookie matching mechanisms. Using crawled data on 35,448 ad impressions, we show that our methodology can successfully categorize four different kinds of information sharing behavior between ad exchanges, including cases where existing heuristic methods fail. We conclude with a discussion of how our findings and methodologies can be leveraged to give users more control over what kind of ads they see and how their information is shared between ad exchanges.

연구 동기 및 목표

  • 특히 가림 기법이나 서버 측 메커니즘을 사용할 경우에도 광고 교환 간 종합적인 정보 흐름을 탐지할 수 있는 도구의 부족을 해결하기 위해.
  • 가림 기법(예: 암호 해시)이 사용될 경우 쿠키 매칭을 탐지하지 못하는 기존의 히ュ리스틱 기반 방법의 한계를 극복하기 위해.
  • 리타겟 광고의 행동적 의미론을 활용하여 콘텐츠 및 교환에 관계없이 일반화된 방법론을 개발하기 위해.
  • 광고 교환(예: 구글, 크리티오, SSPs, DSPs)의 주요 역할과 데이터 공유 행동을 실증적으로 규명하기 위해.
  • 정보 흐름 제어 및 개인정보 보호를 위한 광고 차단 시스템에 기초가 되는 기초 데이터를 제공함으로써 사용자 개인정보 보호 조정을 더 잘 이끌 수 있도록 하기 위해.

제안 방법

  • 사용자가 이전에 본 제품 광고를 다시 보게 되는 리타겟 광고를 활용하여 광고 교환 간의 정보 흐름을 추론하기 위해 프로브로 사용한다.
  • 5,102개의 고유한 리타겟 광고로부터 스크립트, 프레임, 요청을 포함한 전체 자원 포함 체인을 기록하기 위해 크로미움 기반 크롤러를 도입한다.
  • 포함 체인에 패턴 매칭 규칙을 적용하여 각 리타겟 광고를 제공하는 데 관여한 광고 교환의 순서를 식별한다.
  • 식별된 흐름을 쿠키 매칭, 직접 데이터 공유, 공유된 추적 인프라, 서버 측 조율의 4개 유형으로 분류한다.
  • 유추된 교환 상호작용 네트워크에 그래프 분석을 적용하여 역할(예: DSP, SSP)과 데이터 흐름 패턴을 추론한다.
  • 유도된 데이터셋을 기초로 향후 개인정보 보호를 위한 시스템(예: IFC 기반 차단기, 규칙 기반 광고 차단기)의 설계에 기여한다.

실험 결과

연구 질문

  • RQ1리타겟 광고는 광고 교환 간 클라이언트 및 서버 측 정보 흐름을 탐지하는 데 신뢰할 수 있는 프로브로 사용될 수 있는가?
  • RQ2기존의 히ュ리스틱 기반 방법은 쿠키 매칭 흐름 탐지에 얼마나 효과적인가? 그리고 얼마나 많은 비율의 흐름을 놓치는가?
  • RQ3주요 광고 교환(예: 구글, 크리티오, SSPs)은 리타겟팅 파이프라인에서 실제로 어떤 역할을 하고 있으며, 데이터 공유 행동은 어떠한가?
  • RQ4구글은 리타겟팅을 위해 자신의 1차 측정 인프라를 얼마나 활용하여 서비스 간 데이터 공유를 가능하게 하는가?
  • RQ5식별된 정보 흐름을 기반으로 더 효과적이고 개인정보 보호를 고려한 광고 차단 또는 정보 흐름 제어 시스템을 구축할 수 있는가?

주요 결과

  • 제안된 방법론은 기존의 히ュ리스틱 기반 방법보다 31% 더 많은 광고 교환 쌍 간의 데이터 공유를 탐지하며, 특히 암호 해시와 같은 가림 기법이 사용될 경우 기존 방법이 흐름을 식별하지 못하는 데서 기인한다.
  • 실증적 증거는 구글이 내부 인프라(예: googletagservices, doubleclick)를 사용하여 리타겟팅을 위해 서비스 간 사용자 데이터를 공유하고 있음을 확인하며, 개인정보 정책 주장의 타당성을 입증한다.
  • 크리티오는 2014년 기준으로 구글 싱디케이션에 이어 리타겟 광고의 두 번째로 흔한 공급원이며, 미국 및 영국에서 가장 큰 리타겟팅 업체이다.
  • SSP(공급 측 플랫폼)는 DSP보다 더 높은 인-degree 비율을 보이며, 광고 교환 네트워크에서 중심 허브 역할을 함을 나타내며, 일부는 SSP와 DSP의 기능을 동시에 수행한다.
  • 구글의 도메인(예: doubleclick, googlesyndication)은 SSP와 DSP의 이중 역할을 하며, 일반적으로 입찰에 참가하고 승리하여 리타겟 광고를 제공한다.
  • 그래프 분석을 통해 광고 교환은 데이터 흐름 네트워크 내 위치와 연결성에 따라 자동으로 DSP, SSP, 하이브리드 플랫폼 등의 역할로 분류될 수 있음을 밝혀냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.