QUICK REVIEW

[논문 리뷰] Breaking the Communication-Privacy-Accuracy Trilemma

Weining Chen, Peter Kairouz|arXiv (Cornell University)|2020. 07. 22.

Privacy-Preserving Technologies in Data참고 문헌 53인용 수 32

한 줄 요약

논문은 지역적 차등 프라이버시 및 통신 제약을 함께 최적화하는 새로운 인코딩 및 디코딩 스킴을 도입하여 평균 및 빈도 추정의 근사 최적 정확도를 달성하고 ε-LDP와 b-bit 제한 하에서 프라이버시, 통신 및 정확도 간의 무역을 깨뜨린다.

ABSTRACT

Two major challenges in distributed learning and estimation are 1) preserving the privacy of the local samples; and 2) communicating them efficiently to a central server, while achieving high accuracy for the end-to-end task. While there has been significant interest in addressing each of these challenges separately in the recent literature, treatments that simultaneously address both challenges are still largely missing. In this paper, we develop novel encoding and decoding mechanisms that simultaneously achieve optimal privacy and communication efficiency in various canonical settings. In particular, we consider the problems of mean estimation and frequency estimation under $\varepsilon$-local differential privacy and $b$-bit communication constraints. For mean estimation, we propose a scheme based on Kashin's representation and random sampling, with order-optimal estimation error under both constraints. For frequency estimation, we present a mechanism that leverages the recursive structure of Walsh-Hadamard matrices and achieves order-optimal estimation error for all privacy levels and communication budgets. As a by-product, we also construct a distribution estimation mechanism that is rate-optimal for all privacy regimes and communication constraints, extending recent work that is limited to $b=1$ and $\varepsilon=O(1)$. Our results demonstrate that intelligent encoding under joint privacy and communication constraints can yield a performance that matches the optimal accuracy achievable under either constraint alone.

연구 동기 및 목표

분산 학습 및 추정에서 공동 프라이버시-통신-정확도 간의 무역을 동기 부여하고 형식화한다.
전형적 작업 전반에서 ε-LDP 및 b-비트 통신 제약 하에 최적 또는 근사 최적의 추정 오차를 달성하는 스킴을 제공한다.
언제 하나의 제약이 우세한지 그리고 덜 엄격한 제약을 자유롭게 충족시킬 수 있는지 특징화한다.
공통 난수(shared randomness) 고려가 있는 평균 및 분포/빈도 추정 모두에 적용 가능한 범용 스킴을 보여준다.

제안 방법

ε-LDP 및 b-비트 제약 하에서 차수 최적의 ℓ2 오차를 달성하기 위해 Kashin 표현과 난수 샘플링에 기반한 공개 동전(public-coin) 방식의 평균 추정 스킴을 개발한다.
데이터를 Kashin 표현으로 사전 처리하여 계수 전반에 정보를 고르게 분포시키고, 강건한 양자화 및 프라이버시화를 가능하게 한다.
데이터를 2^k-RR 메커니즘으로 양자화, 샘플링 축소 및 프라이버시화하여 k-비트 보고를 전송하고, 서버에서 편향 없는 추정치를 재구성한다.
통계적 평균 추정의 경우, 좌표를 결정적으로 분할하여(shared randomness 없이) 설정하는 변형을 제공하되, 여전히 ε-LDP 및 b-비트 제약 하에서 최적 오차를 달성한다.
빈도 추정을 위한 Recursive Hadamard Response (RHR) 스킴을 도입하고, 재귀 Hadamard 구조를 활용하여 모든 프라이버시 및 통신 예산에서 차수 최적의 오차를 달성한다.
지배 제약이 오차를 결정한다는 것을 보여주고, 다른 제약은 자유롭게 충족될 수 있어 빈도 추정 설정에서 O(n + d log d) 해독 복잡도를 갖는 실용적 스킴을 제공한다.

실험 결과

연구 질문

RQ1전형 작업(평균, 빈도 및 분포 추정)에 대해 공동 ε-LDP 및 b-비트 통신 제약 하에서 근본적인 추정 오차 한계는 무엇인가?
RQ2Kashin의 표현이나 재귀 Hadamard 구조를 활용한 인코딩 스킴이 모든 프라이버시 및 통신 예산에서 차수 최적의 성능을 달성할 수 있는가?
RQ3오차를 주도하는 다른 제약이 있을 때 덜 엄격한 제약을 얼마나 자유롭게 충족시킬 수 있는가?
RQ4공유 난수 요구가 제안 스킴의 실용성 및 최적성에 어떤 영향을 미치는가?

주요 결과

평균 추정의 경우, r_ME(ℓ2, ε, b) = Θ(d/n · min(ε^2, ε, b)); SQKR 스킴은 이 오차 순서를 달성하며 특정 영역에서 정보 이론적으로 최적이다.
Kashin 표현은 정보를 계수 전체에 고르게 분산시켜 편향 없는 프라이빗 추정 및 저분산 재구성을 가능하게 하고 공동 제약 하에서 ℓ2 오차를 개선한다.
빈도 추정의 경우, r_FE(ℓ2) = Θ(d/(n min{e^ε, (e^ε−1)^2, 2^b, d})) 및 r_FE(ℓ1) = Θ(d/(√(n min{e^ε, (e^ε−1)^2, 2^b, d}))); RHR은 ε와 b에 걸친 차수 최적성을 달성하며 효율적인 해독(O(n + d log d))을 제공한다.
Recursive Hadamard Response(RHR)은 공유 난수 없이 분포 추정으로 확장되어 모든 프라이버시 규범 및 예산에서 차수 최적의 ℓ1 및 ℓ2 오차를 달성한다.
결과는 근본적인 무역이 더 엄격한 제약에 의해 좌우되며 덜 엄격한 제약은 자유롭게 충족될 수 있음을 보여주며, 고프라이버시 환경에서 소수 비트 예산이 충분할 수 있는 이유를 설명한다.
제시된 설정에서 이 스킴들이 정보 이론적 하한과 일치하는 성능을 보여 최적성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.