QUICK REVIEW

[논문 리뷰] Discrete Distribution Estimation under Local Privacy

Peter Kairouz, Keith Bonawitz|arXiv (Cornell University)|2016. 02. 24.

Privacy-Preserving Technologies in Data참고 문헌 14인용 수 81

한 줄 요약

이 논문은 코hort 기반 해싱과 k-ary 랜덤라이즈드 리스폰스를 조합한 개선된 局소적 차별적 프rivacy 메커니즘인 O-RR를 제안한다. 이는 이산 분포 추정에 대해 제안된 것으로, 다양한 프rivacy 제도와 데이터 분포에서 Rappor과 k-RR를 능가하는 것으로 실험적으로 입증되었다. 특히 비대칭 데이터와 닫힌 알파벳 환경에서, 충돌 위험을 줄이고 유틸리티를 향상시키기 위해 최소 완전 해시 함수를 사용한다.

ABSTRACT

The collection and analysis of user data drives improvements in the app and web ecosystems, but comes with risks to privacy. This paper examines discrete distribution estimation under local privacy, a setting wherein service providers can learn the distribution of a categorical statistic of interest without collecting the underlying data. We present new mechanisms, including hashed K-ary Randomized Response (KRR), that empirically meet or exceed the utility of existing mechanisms at all privacy levels. New theoretical results demonstrate the order-optimality of KRR and the existing RAPPOR mechanism at different privacy regimes.

연구 동기 및 목표

국소적 차별적 프rivacy 하에서 이산 분포를 추정하면서 유틸리티 손실을 최소화하고 사용자 프rivacy를 유지하는 데 도전하는 것.
기존 방법들인 Rappor과 k-RR의 한계를 극복하고, 고/저 프rivacy 제도 모두에서 잘 작동하는 메커니즘을 개발하는 것.
입력 공간이 알려지지 않거나 크기가 큰 실세계 시스템에 실용적으로 구현 가능하도록, k-RR을 해싱과 코hort를 사용해 개방형 알파벳으로 확장하는 것.
충돌 관련 오류를 줄이기 위해 일반 해시 함수를 최소 완전 해시 함수로 대체하여, 닫힌 알파벳 환경에서 유틸리티를 향상시키는 것.
주어진 표본 크기에서 원하는 프rivacy 수준에서 유틸리티를 최대화할 수 있는 통합적이고 파라미터 조절이 가능한 메커니즘(O-RR)을 제공하는 것.

제안 방법

코호트 기반 해싱과 블룸 필터를 사용해 입력 기호를 유한한 출력 공간으로 매핑함으로써, 개방형 알파벳으로 확장된 k-RR을 확장한 O-RR 메커니즘을 제안한다.
닫힌 알파벳 환경에서 일반 해시 함수를 대체하기 위해 최소 완전 해시 함수의 사용을 도입하여 충돌 확률을 감소시키고 추정 정확도를 향상시킨다.
privatized 보고서를 복원하기 위해 투영 추정기를 사용하며, 이는 확률 단체에 추정 빈도를 투영시켜 비대칭 분포에서 유틸리티를 향상시킨다.
정규화 및 필터링 단계를 생략하고, 최소 제곱 회귀를 사용한 경험적 추정을 통해 복원을 수행함으로써 분포 추정 유틸리티에 집중한다.
기하학적 및 균일한 입력 분포를 사용하여, 다양한 프rivacy 수준(ε), 표본 크기(n), 알파벳 크기(S)에서 중앙값 ℓ₁ 및 ℓ₂ 손실을 측정하여 성능을 평가한다.
다양한 구성, 즉 k, C(코호트 크기), h(블룸 필터 크기), 입력 분포 형태를 변경하여 O-RR를 Rappor과 k-RR와 비교한다.

실험 결과

연구 질문

RQ1O-RR는 다양한 프rivacy 수준(ε)과 데이터 분포에서 Rappor과 k-RR에 비해 유틸리티 측면에서 어떻게 비교되는가?
RQ2다양한 프rivacy 및 표본 크기 제약 조건 하에서 추정 오차를 최소화하기 위해 O-RR의 파라미터(k, C, h)의 최적 구성은 무엇인가?
RQ3최소 완전 해시 함수의 사용이 일반 해싱에 비해 닫힌 알파벳 환경에서 O-RR의 성능을 크게 향상시킬 수 있는가?
RQ4투영 추정기는 비대칭 입력 분포에서 표준 경험적 추정기보다 더 높은 유틸리티를 제공하는가?
RQ5입력 기호 집합이 사전에 알려지지 않은 개방형 알파벳 환경에서 O-RR는 어떻게 성능을 발휘하는가?

주요 결과

S=256 및 n=10⁶ 조건에서 개방형 알파벳 환경에서 O-RR는 모든 프rivacy 제도에서 Rappor의 유틸리티를 맞추거나 초월하며, 특히 중간 수준의 프rivacy 설정에서 뛰어난 성능을 보인다.
닫힌 알파벳 환경에서는 최소 완전 해시 함수를 사용함으로써 k-RR 및 Rappor보다 뚜렷이 뛰어난 성능을 보이며, 모든 ε 수준에서 높은 유틸리티를 달성한다.
O-RR의 최적 k는 ε가 증가함에 따라 증가하며, C ≥ 2는 항상 성능 향상에 기여하지만, h=1은 기본 해싱을 초월해 추가 이득을 주지 않는다.
투영 추정기는 다양한 프rivacy 수준과 표본 크기에서 가장 높은 유틸리티를 제공하며, 특히 비대칭 분포에서 뛰어난 성능을 보인다.
낮은 프rivacy 제도에서는 k-RR가 순서 최적이고, 높은 프rivacy 제도에서는 Rappor가 순서 최적임을 확인했으며, 반대 제도에서는 둘 다 엄격히 비최적임을 확인했다.
닫힌 알파벳 환경에서 O-RR는 C=h=1일 경우 순열된 출력을 갖는 k-RR로 축소되지만, 완전 해시 함수에 의한 충돌 감소 덕분에 여전히 k-RR보다 높은 유틸리티를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.