QUICK REVIEW

[논문 리뷰] Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy

Thông Nguyen, Xiaokui Xiao|arXiv (Cornell University)|2016. 06. 16.

Privacy-Preserving Technologies in Data참고 문헌 14인용 수 163

한 줄 요약

Harmony는 스마트 기기로부터 다중 속성 데이터(수치 및 범주형)를 수집하고 분석하기 위한 실용적인 로컬 디퍼런셜 프라이버시 시스템으로, 평균/빈도 추정 및 기계 학습 작업(linear/logistic regression, SVM)을 강력한 프라이버시 보장과 함께 가능하게 합니다.

ABSTRACT

Organizations with a large user base, such as Samsung and Google, can potentially benefit from collecting and mining users' data. However, doing so raises privacy concerns, and risks accidental privacy breaches with serious consequences. Local differential privacy (LDP) techniques address this problem by only collecting randomized answers from each user, with guarantees of plausible deniability; meanwhile, the aggregator can still build accurate models and predictors by analyzing large amounts of such randomized data. So far, existing LDP solutions either have severely restricted functionality, or focus mainly on theoretical aspects such as asymptotical bounds rather than practical usability and performance. Motivated by this, we propose Harmony, a practical, accurate and efficient system for collecting and analyzing data from smart device users, while satisfying LDP. Harmony applies to multi-dimensional data containing both numerical and categorical attributes, and supports both basic statistics (e.g., mean and frequency estimates), and complex machine learning tasks (e.g., linear regression, logistic regression and SVM classification). Experiments using real data confirm Harmony's effectiveness.

연구 동기 및 목표

로컬 디퍼런셜 프라이버시(LDP)를 사용하여 대규모 사용자 기반에서 개인 정보를 보호하는 데이터 수집을 촉진한다.
혼합 수치 및 범주형 속성을 처리하고 기본 통계 및 경험적 위험 최소화(empirical risk minimization) 작업을 지원하도록 Harmony를 개발한다.
이론적 보장과 실데이터에 대한 실증 검증을 갖춘 실용적이고 정확하며 확장 가능한 LDP 메커니즘을 제공한다.

제안 방법

Harmony는 숫자 속성과 범주형 속성을 모두 포함하는 사용자 튜플을 어그리게이터로 보내기 전에 LDP 기반 시스템 Harmony를 제안한다.
숫자 속성에 대해 편향되지 않은 평균 추정치를 제시하는 제어된 오차를 가지는 섭동 메커니즘을 개발하고, Duchi 등과 같은 기존 방법의 한계(일부 영역에서 버그)가 있는 문제를 해결한다.
epsilon-LDP를 달성하고 향상된 실험적 정확도를 갖춘 숫자 속성에 대한 간단하고 효율적인 1-bit-per-user 섭동 스킴을 도입한다.
범주형 속성에 대해 Bassily and Smith의 투영 기반 방법을 적용하여 epsilon-LDP 하에서 값의 빈도(히스토그램)를 추정하고, 실무에서의 안정성을 개선하기 위한 적응을 도입한다.
다수의 속성에 대해 사용자가 보고할 속성을 무작위로 선택하는 방식으로 접근 방식을 확장하고, 숫자 평균과 범주형 빈도를 하나의 프라이버시 보전 프레임워크로 결합한다.
stochastic gradient 기반 방법을 통해 LDP 하에서 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), SVM과 같은 경험적 위험 최소화 작업을 Harmony가 지원하는 방법을 시연한다.

실험 결과

연구 질문

RQ1다중 속성 설정에서 epsilon-LDP 하에 숫자 속성에 대한 정확한 평균 추정치와 범주형 속성에 대한 신뢰할 수 있는 빈도 추정치를 Harmony가 제공할 수 있는가?
RQ2결합된 수치 및 범주형 데이터에서 실용적인 기계 학습(linear/logistic regression, SVM)을 가능하게 하려면 LDP를 어떻게 활용할 수 있는가?
RQ3Harmony의 섭동 메커니즘의 이론적/오류 보장은 무엇이며, 기존의 LDP 방법과 어떻게 비교되는가?
RQ4다수의 속성을 처리하거나 다수의 범주형 속성을 다룰 때 속성 보고의 무작위화가 정확도에 어떤 영향을 미치는가?

주요 결과

숫자 속성에 대한 간단한 1-bit-per-user 섭동 메커니즘은 epsilon-LDP를 달성하고 sqrt(d)와 sqrt(log(d/β))로 증가하는 명확한 오차 경계를 가진 편향되지 않은 평균 추정을 달성한다.
범주형 속성의 경우 Harmony는 Bassily and Smith의 투영 기반 방법을 사용하여 값당 O(sqrt(log(k/β))/(ε√n))의 오차를 달성하고, k가 보통일 때 이전 방법에 비해 안정성을 개선한다.
다수의 속성을 다룰 때, 숫자 평균에 대해 per-attribute 오차는 O(√(d log(d/β))/(ε√n)) 수준이고, 범주형 빈도에 대해서는 O(√(d log(k/β))/(ε√n)) 수준의 오차를 제공하며, 높은 확률 보장(1−β)을 갖는다.
Harmony는 적절한 섭동 및 학습 파이프라인을 통해 로컬 디퍼런셜 프라이버시 하에서 경험적 위험 최소화 작업(linear regression, logistic regression, SVM)을 가능하게 하며, 실데이터에서의 실용적 성능이 검증된다.
본 논문은 이전 로컬 DP 평균 추정 방법들(특히 Duchi et al.의 접근법)의 문제점을 식별하고 수정하며, 숫자 데이터에 대해 1 bit per user와 같은 최소한의 통신으로 작동하는 강건하고 효율적인 대안을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.