QUICK REVIEW

[논문 리뷰] Differentially Private Continual Releases of Streaming Frequency Moment Estimations

Alessandro Epasto, Jieming Mao|arXiv (Cornell University)|2023. 01. 01.

Privacy-Preserving Technologies in Data인용 수 1

한 줄 요약

이 논문은 스트리밍 ℓp 빈도 모멘트 추정을 위한 최초의 미분적 비밀보장 연속적 공개 알고리즘을 제시하며, (1+η)-근사값을 달성하고 다항로그형의 추가 오차 및 거의 최적의 공간 복잡도를 확보한다. 이는 차별적 비밀보장에 적합한 새로운 스무스 히스토그램 프레임워크를 활용하여, 기본적인 스트리밍 문제인 고유 요소 수와 빈도 모멘트에 대한 비밀보장 연속적 및 슬라이딩 윈도우 분석을 가능하게 한다.

ABSTRACT

The streaming model of computation is a popular approach for working with large-scale data. In this setting, there is a stream of items and the goal is to compute the desired quantities (usually data statistics) while making a single pass through the stream and using as little space as possible. Motivated by the importance of data privacy, we develop differentially private streaming algorithms under the continual release setting, where the union of outputs of the algorithm at every timestamp must be differentially private. Specifically, we study the fundamental $\ell_p$ $(p\in [0,+\infty))$ frequency moment estimation problem under this setting, and give an $\varepsilon$-DP algorithm that achieves $(1+η)$-relative approximation $(\forall η\in(0,1))$ with $\mathrm{poly}\log(Tn)$ additive error and uses $\mathrm{poly}\log(Tn)\cdot \max(1, n^{1-2/p})$ space, where $T$ is the length of the stream and $n$ is the size of the universe of elements. Our space is near optimal up to poly-logarithmic factors even in the non-private setting. To obtain our results, we first reduce several primitives under the differentially private continual release model, such as counting distinct elements, heavy hitters and counting low frequency elements, to the simpler, counting/summing problems in the same setting. Based on these primitives, we develop a differentially private continual release level set estimation approach to address the $\ell_p$ frequency moment estimation problem. We also provide a simple extension of our results to the harder sliding window model, where the statistics must be maintained over the past $W$ data items.

연구 동기 및 목표

모든 시간에 걸쳐 출력에 대한 비밀보장을 보장하는 연속적 공개를 지원하는 미분적 비밀보장 스트리밍 알고리즘을 개발하는 것.
연속적 공개 모델에서 미분적 비밀보장 하에 기본적인 ℓp 빈도 모멘트 추정 문제를 해결하는 것.
더 복잡한 슬라이딩 윈도우 모델으로 프레임워크를 확장하여 최근 데이터만 유지되도록 하는 것.
강력한 비밀보장 및 정확도 보장을 유지하면서 거의 최적의 공간 복잡도를 달성하는 것.
비밀보장된 최신 데이터 분석이 필수적인 실세계 응용 분야(예: 프라이버시 샌드박스)를 위한 실용적 해결책을 제공하는 것.

제안 방법

복잡한 비밀보장 스트리밍 문제(예: 고유 요소 수, 헤비 헤이터)를 연속적 공개 모델에서 간단한 세기/합계 문제로 환원하는 것.
슬라이딩 윈도우에서의 비밀보장 근사값 유지에 적합한, 새로운 비밀보장 스무스 히스토그램 프레임워크를 도입하는 것.
시간에 따른 影響의 감쇠를 모델링하기 위해 (ζ, β)-스무스 함수를 사용하여, 겹치는 알고리즘 인스턴스 간의 비밀보장 조합을 가능하게 하는 것.
기본 구성 요소로 ε′-DP 스트리밍 알고리즘을 사용하고, 계층적 구조를 통해 슬라이딩 윈도우 모델에서 ε-DP를 달성하는 것.
고급 비밀보장 약화 및 조합 정리들을 적용하여 다중 알고리즘 인스턴스 간의 종단 간 비밀보장 손실을 제한하는 것.
이론적 보장을 실용적인 공간 효율성과 융합하여, T 및 |U|에 대해 다항로그형 공간 사용을 달성하는 것.

실험 결과

연구 질문

RQ1ℓp 빈도 모멘트 추정에 대해 (1+η)-근사값과 거의 최적의 공간 복잡도를 갖는, 미분적 비밀보장 연속적 공개 알고리즘을 설계할 수 있는가?
RQ2스무스 히스토그램 프레임워크는 연속적 공개 환경에서 비밀보장을 보장하기 위해 어떻게 적응시킬 수 있는가?
RQ3슬라이딩 윈도우 모델에서 미분적 비밀보장 하에 ℓp 빈도 모멘트 추정의 공간-정확도-비밀보장 트레이드오프는 어떠한가?
RQ4기존의 비비밀보장 스트리밍 알고리즘은 최소한의 오버헤드로 비밀보장 연속적 공개 모델로 확장될 수 있는가?
RQ5스트리밍 및 슬라이딩 윈도우 환경에서, 미분적 비밀보장 빈도 모멘트 추정의 공간 효율성에 대한 이론적 한계는 무엇인가?

주요 결과

논문은 (1+η)-상대적 근사값과 다항로그형의 추가 오차(poly log(T n))를 갖는 ε-DP 알고리즘을 제시하며, 공간 복잡도는 poly log(T n) · max(1, n1−2/p)이다.
공간 복잡도는 거의 최적으로, 알려진 비비밀보장 하한선에 다항로그형 요소를 제외하고 일치한다.
프레임워크를 통해 고유 요소 수, 헤비 헤이터, 저빈도 수세기 등의 비밀보장 연속적 공개가 가능하며, 이를 합계 기반 원리로 환원하는 방식이다.
슬라이딩 윈도우 모델에서는 비음수 수의 합계에 대해 (1+η, O(log(T/(ηξ)) log(T)/(εη³)))-근사값을 달성하며, 공간 복잡도는 O(log(T)/η)이다.
ℓ2 빈도 모멘트의 경우 오차 한계로 η∥S∥²₂ + O((log(T/(ξη)) + log|U|)² log²(T)/(ε²η⁸) · log⁵(T) · log²(log(T/ξ)+log|U|)/(ξη))를 제공하며, 공간 복잡도는 O((log(T/(ξη)) + log|U|)/η⁴ · log²(T))이다.
일반적인 ℓp 빈도 모멘트( p > 0)의 경우, (1+η, (log(T|U|/ξ)/(ηε))^{O(p)})-근사값을 달성하며, 공간 복잡도는 φ · (log(T|U|/ξ)/(ηε))^{O(p)} 이하로 제한되며, 여기서 φ = max(1, |U|^{1−2/p})이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.