QUICK REVIEW

[논문 리뷰] Learning discrete distributions: user vs item-level privacy

Yuhan Liu, Ananda Theertha Suresh|arXiv (Cornell University)|2020. 01. 01.

Privacy-Preserving Technologies in Data인용 수 8

한 줄 요약

이 논문은 각 사용자가 다수의 샘플을 기여하는 사용자 수 수준의 비밀성 보장 하에 이산 분포를 학습하기 위한 새로운 비밀성 보장 메커니즘을 제안한다. 사용자 수준의 노이즈 주입과 적응형 집계를 활용하여, 표준 라플라스/가우시안 메커니즘 대비 사용자 복잡도를 $\tilde{\Theta}(\sqrt{m})$ 배 감소시켜 핵심 영역에서 거의 최적의 성능을 달성한다.

ABSTRACT

Much of the literature on differential privacy focuses on item-level privacy, where loosely speaking, the goal is to provide privacy per item or training example. However, recently many practical applications such as federated learning require preserving privacy for all items of a single user, which is much harder to achieve. Therefore understanding the theoretical limit of user-level privacy becomes crucial. We study the fundamental problem of learning discrete distributions over $k$ symbols with user-level differential privacy. If each user has $m$ samples, we show that straightforward applications of Laplace or Gaussian mechanisms require the number of users to be $\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$ to achieve an $\ell_1$ distance of $\alpha$ between the true and estimated distributions, with the privacy-induced penalty $k/\epsilon\alpha$ independent of the number of samples per user $m$. Moreover, we show that any mechanism that only operates on the final aggregate counts should require a user complexity of the same order. We then propose a mechanism such that the number of users scales as $ ilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$ and hence the privacy penalty is $ ilde{\Theta}(\sqrt{m})$ times smaller compared to the standard mechanisms in certain settings of interest. We further show that the proposed mechanism is nearly-optimal under certain regimes. We also propose general techniques for obtaining lower bounds on restricted differentially private estimators and a lower bound on the total variation between binomial distributions, both of which might be of independent interest.

연구 동기 및 목표

주로 항목 수준의 비밀성에 초점을 맞춘 비밀성 보장 문헌의 격차를 메우며, 페더레이티드 러닝과 같은 실제 응용에서 요구하는 사용자 수준의 비밀성 보장을 다루기 위해.
각 사용자가 다수의 샘플을 기여할 때 사용자 수준의 비밀성 보장 하에 이산 분포를 학습하는 데 있어 기본적인 한계를 조사하기 위해.
특히 중간에서 높은 사용자 당 샘플 수가 존재하는 환경에서, 표준 접근 방식에 비해 필요한 사용자 수를 줄일 수 있는 메커니즘을 개발하기 위해.
제한된 비밀성 보장 추정기의 사용자 복잡도에 대한 이론적 하한을 설정하고, 이항 분포 간의 총 변동 거리에 대한 하한을 설정하기 위해.
특정 매개변수 영역에서 제안된 메커니즘이 거의 최적임을 보여주기 위해.

제안 방법

항목 수준이 아닌 사용자 수준에서 노이즈를 주입하는 방식으로 작동하는 새로운 비밀성 보장 메커니즘을 제안하며, 집계된 카운트에 맞게 조정된 수정된 라플라스 메커니즘을 사용한다.
두 단계 집계 과정을 도입한다: 첫째, 각 사용자가 각 기호의 비밀성 보장된 카운트를 보고한다. 둘째, 서버는 사용자 수준의 비밀성 보장을 확보하기 위해 보정된 노이즈를 사용해 이러한 카운트를 집계한다.
노이즈 스케일을 $\tilde{\mathcal{O}}(\sqrt{m}/\epsilon)$ 비례하게 사용하여, $m$과 무관하게 $\mathcal{O}(k/\epsilon\alpha)$로 증가하는 표준 메커니즘과 비교해 비밀성 유도 비용을 감소시킨다.
집중 불등식과 이항 꼬리 경계를 적용하여 추정 오차를 분석하고, 진짜 분포와 추정된 분포 간의 $\ell_1$ 거리가 $\alpha$ 이내가 되도록 보장한다.
제한된 비밀성 보장 추정기의 하한을 증명하기 위한 일반 기법을 개발하며, 사용자 입력에 대한 출력 분포의 민감도를 분석한다.
이항 분포 간의 총 변동 거리에 대한 새로운 하한을 설정하여, 제안된 메커니즘의 거의 최적성 증명에 사용한다.

실험 결과

연구 질문

RQ1각 사용자가 $m$개의 샘플을 기여할 때, 사용자 수준의 비밀성 보장 하에 $k$개의 기호로 이루어진 이산 분포를 학습하기 위해 필요한 기본적인 사용자 복잡도는 얼마인가?
RQ2표준 메커니즘인 라플라스 또는 가우시안 메커니즘에서 $m$, $k$, $\alpha$, $\epsilon$에 따라 필요한 사용자 수는 어떻게 변화하는가?
RQ3노이즈 유도 비용이 $m$에 대해 비선형적으로 증가하는 메커니즘을 설계할 수 있는가? 이를 통해 필요한 사용자 수를 줄일 수 있는가?
RQ4특정 매개변수 영역에서 제안된 메커니즘이 사용자 복잡도 측면에서 거의 최적인가?
RQ5제한된 비밀성 보장 추정기의 사용자 복잡도에 대한 하한을 도출하기 위해 사용할 수 있는 일반적인 기법은 무엇인가?

주요 결과

라플라스 또는 가우시안과 같은 표준 메커니즘은 $\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$명의 사용자가 필요하며, 이는 $m$과 무관한 비밀성 유도 비용을 가진다.
최종 집계 카운트만을 사용하는 모든 메커니즘은 동일한 순서의 사용자 복잡도를 가져야 하며, 이러한 방법에 대한 사용자 복잡도에 대한 하한을 설정한다.
제안된 메커니즘은 사용자 복잡도를 $\tilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$로 감소시켜 비밀성 유도 비용을 $\tilde{\Theta}(\sqrt{m})$ 배 감소시킨다.
메커니즘이 $m \gg \epsilon^2\alpha^2k^2$인 영역에서 거의 최적임을 입증하였으며, 이는 비밀성 비용이 $m$에 대해 비선형적으로 증가함을 의미한다.
이항 분포 간의 총 변동 거리에 대한 새로운 하한을 유도하였으며, 통계 추론과 비밀성 분석에 있어 별도의 관심사로 간주된다.
제한된 비밀성 보장 추정기의 사용자 복잡도에 대한 하한을 도출하기 위한 일반 기법을 개발하여, 사용자 수준의 비밀성 보장 메커니즘의 보다 날카운 분석을 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.