QUICK REVIEW

[논문 리뷰] Differentially Private Release and Learning of Threshold Functions

Mark Bun, Kobbi Nissim|arXiv (Cornell University)|2015. 04. 28.

Privacy-Preserving Technologies in Data참고 문헌 10인용 수 6

한 줄 요약

이 논문은 유한 및 무한 도메인에서 임계 함수의 비밀리에 공개하기 위한 샘플 복잡도에 대해 처음으로 비자명한 하한을 확립하며, 이는 도메인 크기와 함께 증가하는 Ω(log* |X|)이어야 한다고 보여준다. 내부 점 문제를 위한 새로운 재귀적 구성법을 제안하고 이를 이용해 불가능성 결과를 증명하며, 同시에 샘플 복잡도 2^(1+o(1)) log* |X|를 달성하는 새로운 알고리즘을 제시하여 이전의 상한과의 격차를 좁힌다.

ABSTRACT

We initiate the study of the randomness complexity of differential privacy, i.e., how many random bits an algorithm needs in order to generate accurate differentially private releases. As a test case, we focus on the task of releasing the results of d counting queries, or equivalently all one-way marginals on a d-dimensional dataset with boolean attributes. While standard differentially private mechanisms for this task have randomness complexity that grows linearly with d, we show that, surprisingly, only log₂ d+O(1) random bits (in expectation) suffice to achieve an error that depends polynomially on d (and is independent of the size n of the dataset), and furthermore this is possible with pure, unbounded differential privacy and privacy-loss parameter ε = 1/poly(d). Conversely, we show that at least log₂ d-O(1) random bits are also necessary for nontrivial accuracy, even with approximate, bounded DP, provided the privacy-loss parameters satisfy ε,δ ≤ 1/poly(d). We obtain our results by establishing a close connection between the randomness complexity of differentially private mechanisms and the geometric notion of "deterministic rounding schemes" recently introduced and studied by Vander Woude et al. (2022, 2023).

연구 동기 및 목표

유한 및 무한 도메인에서 임계 함수의 비밀리에 공개하기 위한 샘플 복잡도의 날것의 하한을 확립하는 것.
자연수 ℕ 또는 [0,1]와 같은 무한 데이터 유니버스에서 임계 함수의 공개가 가능한지 여부를 해결하는 것.
무한 도메인에 대한 문제에 대해 비밀리에 공개의 불가능성 결과를 증명하기 위한 새로운 기법을 개발하는 것.
임계 함수의 공개 및 학습에 대한 샘플 복잡도 상한을 향상시켜 기존의 8(1+o(1)) log* |X|에서 2^(1+o(1)) log* |X|로 감소시키는 것.
적절한 PAC 학습과 콜모고로프 거리 기반 분포 학습으로의 결과 확장하여, 비밀리에 공개와 비비밀리 공개의 샘플 복잡도 간의 분리가 일어남을 보여주는 것.

제안 방법

내부 점 문제의 완화판으로서 우세하지 않은 점 문제를 도입하고, 무한 도메인에서의 불가능성을 증명한다.
내부 점 문제에 대한 샘플 복잡도를 유계하는 데 재귀적 구성법을 개발하며, T-유계 메커니즘과 도메인 절단을 통해 유한 집합 Xd로의 변환을 수행한다.
임계 함수의 공개 및 학습을 내부 점 문제로 감소시켜 하한을 전이할 수 있도록 한다.
가설 집합과 비밀리에 공개 조건을 기반으로 한 패킹 추론을 사용하여, 가чёт한 가설 클래스를 가진 점 함수의 순수 비밀리에 공개에서의 불가능성을 증명한다.
피어싱 코드와 분포 분석을 적용하여, 어떤 비밀리에 공개 메커니즘도 높은 오차를 유발하는 강한 입력 분포를 구성한다.
적응적 노이즈와 도메인 분할을 통해 작동하는 재귀적이고 계층적인 메커니즘을 구현하여, 개선된 샘플 복잡도를 달성하는 임계 함수의 공개를 수행한다.

실험 결과

연구 질문

RQ1자연수 ℕ 또는 [0,1]와 같은 무한 데이터 유니버스에서 임계 함수를 비밀리에 공개하는 것은 가능한가?
RQ2임계 함수의 비밀리에 공개에 필요한 정확한 샘플 복잡도는 얼마이며, 이는 |X|와 어떻게 척도화되는가?
RQ3기존의 상한 8(1+o(1)) log* |X|를 초월하여, 임계 함수의 비밀리에 학습의 샘플 복잡도를 향상시킬 수 있는가?
RQ4(ε,δ)-비밀리에 공개 하에 적절한 PAC 학습에서 임계 함수의 샘플 복잡도는 도메인 크기와 함께 증가하는가?
RQ5순수 ε-비밀리에 공개 하에 가чёт한 가설 클래스를 사용하여 점 함수를 비밀리에 학습할 수 있는가?

주요 결과

임계 함수의 비밀리에 공개에 필요한 샘플 복잡도는 최소 Ω(log* |X|)이어야 하며, 이는 ℕ 또는 [0,1]와 같은 무한 도메인에서는 불가능함을 증명한다.
논문은 샘플 복잡도 2^(1+o(1)) log* |X|를 달성하는 새로운 비밀리에 공개 알고리즘을 제안하며, 이는 이전의 상한 8(1+o(1)) log* |X|를 향상시킨다.
임계 함수의 공개에 대한 하한은, (ε,δ)-비밀리에 공개 하에 개념 클래스를 적절하게 학습할 때의 샘플 복잡도와 비비밀리에 공개 시의 샘플 복잡도 간의 분리를 처음으로 보여준다.
ℓ 차원에서 임계 함수를 적절히 학습할 경우, 샘플 복잡도 하한은 n ≥Ω(ℓ · log* |X|)로 확장된다.
논문은 무한 도메인에서의 점 함수는 순수 ε-비밀리에 공개 하에 가чёт한 가설 클래스를 사용하여 학습할 수 없음을 증명하며, 열린 질문을 해결한다.
결과는 콜모고로프 거리 기반 비밀리에 분포 학습으로까지 확장되며, 비밀리에 공개 하에 샘플 복잡도가 |X|와 함께 증가해야 한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.