Skip to main content
QUICK REVIEW

[논문 리뷰] Collecting Telemetry Data Privately

Bolin Ding, Janardhan Kulkarni|arXiv (Cornell University)|2017. 12. 05.
Privacy-Preserving Technologies in Data참고 문헌 21인용 수 264
한 줄 요약

본 논문은 지역 차등 프라이버시(LDP) 메커니즘을 반복 수집되는 카운터 데이터에 대해 개발하고, alpha-point rounding과 memoization을 도입하여 시간에 따른 정확도와 프라이버시를 유지하며, Microsoft의 실제 배포를 보여준다.

ABSTRACT

The collection and analysis of telemetry data from users' devices is routinely performed by many software companies. Telemetry collection leads to improved user experience but poses significant risks to users' privacy. Locally differentially private (LDP) algorithms have recently emerged as the main tool that allows data collectors to estimate various population statistics, while preserving privacy. The guarantees provided by such algorithms are typically very strong for a single round of telemetry collection, but degrade rapidly when telemetry is collected regularly. In particular, existing LDP algorithms are not suitable for repeated collection of counter data such as daily app usage statistics. In this paper, we develop new LDP mechanisms geared towards repeated collection of counter data, with formal privacy guarantees even after being executed for an arbitrarily long period of time. For two basic analytical tasks, mean estimation and histogram estimation, our LDP mechanisms for repeated data collection provide estimates with comparable or even the same accuracy as existing single-round LDP collection mechanisms. We conduct empirical evaluation on real-world counter datasets to verify our theoretical results. Our mechanisms have been deployed by Microsoft to collect telemetry across millions of devices.

연구 동기 및 목표

  • 연속적인 텔레메트리 데이터 수집에서의 프라이버시 위험을 동기화하고 시간이 지남에 따라 강력한 LDP 보장이 필요한 이유를 제시한다.
  • 평균 및 히스토그램 추정에 대한 간단한 1비트 로컬 DP 메커니즘을 개발한다.
  • 프라이버시를 보장하는 continual 데이터 수집을 가능하게 하도록 alpha-point rounding과 memoization을 도입한다.
  • 반복 수집에 대한 형식적 프라이버시 보장을 제공하고 실용적 정확성을 분석한다.
  • 수백만 대의 기기에서의 실험적 성능과 실제 배포를 시연한다.

제안 방법

  • 단일 라운드 평균 추정을 위한 1비트 로컬 DP 메커니즘(1BitMean)과 명시적 출력 공식을 제시한다.
  • 버킷 샘플링과 버킷별 무작위화를 포함하는 히스토그램 추정을 위한 d비트 메커니즘(dBitFlip)을 제시한다.
  • 편향 없이 평균을 바꾸지 않고도 프라이버시를 유지하는 방식으로 private 값을 이 discretize하기 위해 alpha-point rounding을 도입한다.
  • 연속 데이터 수집에서 프라이버시 보장을 유지하기 위해 이산화된 값을 메모이제이션하여 활용한다.
  • 사용자 행동의 큰 변화로부터의 누출을 완화하기 위해 출력 노이즈를 도입한다.
  • 단일 라운드 수집에 대한 형식적 LDP 보장과 연속 관찰 하에서의 확률적 오류 한계를 제공한다.

실험 결과

연구 질문

  • RQ1지역 LDP 하에서 반복 데이터 수집 설정에서 정확한 평균 및 히스토그램 추정을 어떻게 달성할 수 있는가?
  • RQ2간단하고 저전자통신(1비트) 메커니즘이 LDP에서 평균 및 히스토그램 작업에 대해 경쟁력 있는 정확도를 제공하는가?
  • RQ3alpha-point rounding과 memoization을 결합하면 편향 없는 추정치를 유지하면서 지속적인 프라이버시 보장을 가능하게 하는가?
  • RQ4연속 수집 하에서 어떤 형식적 프라이버시 보장이 성립하며, 시간이 지남에 따른 행동 패턴과 어떤 관계가 있는가?
  • RQ5이 메커니즘들이 실제 텔레메트리 데이터에서 어떻게 작동하며 수백만 사용자 규모로 확장되는가?

주요 결과

  • 1비트 평균 추정 메커니즘(1BitMean)은 epsilon-LDP를 보존하고, 명확한 오차 한계로 증명 가능한 정확도를 산출한다.
  • 1비트 기반 히스토그램 메커니즘(dBitFlip)은 epsilon-LDP를 보존하고, k개의 버킷에 걸친 히스토그램 추정에 대해 한정된 오차를 달성한다.
  • 알파-포인트 반올림(alpha-point rounding) 기술은 메모이제이션을 연속 카운터 데이터 수집에 사용 가능하게 하여 기대 평균이 편향되지 않고 단일 라운드 정확성을 해치지 않는다.
  • 알파-포인트 반올림을 통한 영구 메모이제이션은 유사 패턴을 가진 사용자들 간의 혼합을 보장함으로써 지속적인 관찰에 대한 프라이버시 보장을 제공한다.
  • 제안된 방법들은 실제 데이터셋에서 경험적으로 검증되었고, Microsoft가 Windows 10 Fall Creators Update에서 시작하여 수백만 대의 기기에 배포하였다.
  • 본 프레임워크는 실용적 배포를 지원하며 구체적인 설정에서 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.