QUICK REVIEW

[논문 리뷰] Private Counting of Distinct and k-Occurring Items in Time Windows

Badih Ghazi, Ravi Kumar|arXiv (Cornell University)|2022. 11. 21.

Privacy-Preserving Technologies in Data인용 수 3

한 줄 요약

이 논문은 이벤트 수준 및 아이템 수준의 비밀성 보장 하에 시간 창 내에서 고유한 항목과 k번 발생하는 항목을 세는 분산 비밀성 알고리즘을 제시하며, 거의 최적에 가까운 오차 한계를 달성한다. 이는 볼로트 등(2013년 ICDT)이 제기한 열린 문제를 해결하여, 크기가 W인 슬라이딩 창에서 고유한 항목 수를 세는 이벤트 수준 DP 알고리즘의 오차가 다항로그 수준임을 보여준다.

ABSTRACT

In this work, we study the task of estimating the numbers of distinct and $k$-occurring items in a time window under the constraint of differential privacy (DP). We consider several variants depending on whether the queries are on general time windows (between times $t_1$ and $t_2$), or are restricted to being cumulative (between times $1$ and $t_2$), and depending on whether the DP neighboring relation is event-level or the more stringent item-level. We obtain nearly tight upper and lower bounds on the errors of DP algorithms for these problems. En route, we obtain an event-level DP algorithm for estimating, at each time step, the number of distinct items seen over the last $W$ updates with error polylogarithmic in $W$; this answers an open question of Bolot et al. (ICDT 2013).

연구 동기 및 목표

동적 데이터 스트림에서 시간 창 내 고유 및 k번 발생하는 항목의 수를 사전적으로 추정하는 문제에 대응한다.
누적, 고정 창, 시간 창 쿼리 설정에서 비밀성(이벤트 수준 대비 아이템 수준 DP)과 유틸리티(오차 한계) 간의 상호 교환 관계를 분석한다.
기존 연구의 격차를 메우기 위해 순수 및 근사 DP의 다양한 설정에서 오차에 대한 거의 최적의 상한 및 하한을 제공한다.
볼로트 등(2013년 ICDT)이 제기한 슬라이딩 창에서의 고유 수 세기 문제에 대한 이벤트 수준 DP의 열린 문제를 해결한다.
데이터 구조—단일 항목(한 시간 단위당 하나의 항목) 대 다중 항목 묶음(한 시간 단위당 여러 항목)—이 오차 및 비밀성의 상호 교환 관계에 미치는 영향을 탐색한다.

제안 방법

크기가 W인 슬라이딩 창에서 고유한 항목 수를 추정하기 위한 새로운 이벤트 수준 분산 비밀성 알고리즘을 설계하여 오차가 O(polylog W) 수준이 되도록 한다.
시간 창 고유 수 세기 문제를 동적 데이터 구조 상의 2차원 영역 카운팅 문제로 환원하고, 비밀성 보장된 영역 쿼리 기법을 활용한다.
라플라스 기법과 출력 편향 기법과 같은 고급 분산 비밀성 기법을 적용하여 이벤트 수준 및 아이템 수준 정의 모두에서 비밀성을 보장한다.
1차원 마진 문제에서의 환원을 통해 일치하는 하한을 유도하여, 상한이 다항로그 요소를 제외한 범위에서 최적임을 증명한다.
버킷화 및 집계 전략을 사용하여 다중 항목 묶음 설정에서 단일 항목 설정을 시뮬레이션함으로써 비밀성을 유지하고 오차 증가를 통제한다.
특히 1차원 마진 질의 문제와 같은 알려진 어려운 문제로의 환원을 통해 엄밀한 오차 한계를 확립한다.

실험 결과

연구 질문

RQ1이벤트 수준 및 아이템 수준 DP 하에서 시간 창 내 고유 항목 수를 세는 분산 비밀성 계산에서 달성 가능한 최적의 오차는 무엇인가?
RQ2슬라이딩 창에서 고유 수 세기 문제에 대해 이벤트 수준 DP에서 W에 대해 다항로그 수준의 오차를 달성할 수 있는가?
RQ3싱글톤 및 번들 설정에서 k-occurring 항목 수 세기의 오차 한계는 k, T 및 비밀성 파rameter ǫ와 δ에 따라 어떻게 변화하는가?
RQ4다양한 DP 정의 및 쿼리 유형 하에서 이러한 문제의 기본적인 한계(하한)는 무엇인가?
RQ5동일한 비밀성 제약 조건 하에서 누적, 고정 창, 일반 시간 창 쿼리 간 오차 한계는 어떻게 다를까?

주요 결과

슬라이딩 창 크기 W에서 고유 항목 수를 세는 데 있어 이벤트 수준 DP 알고리즘을 제시하며 오차가 O(polylog W) 수준이 되며, 볼로트 등(2013년 ICDT)이 제기한 열린 문제를 해결한다.
아이템 수준 DP 및 싱글톤 설정 하에서 순수 DP 하에서 시간 창 CntOcc≥k의 오차 한계는 O(√(T/ǫ) · log¹·⁵ T) 수준이다.
근사 DP 하에서 동일한 설정에서 오차 한계는 O(³√(T/ǫ²) · √(log(T/δ)) · log¹·⁵ T)이며, 다항로그 요소를 제외한 하한과 일치한다.
하한 분석 결과, T ≥ k/ǫ일 경우 싱글톤 설정에서 어떤 ǫ-DP 알고리즘도 오차 o(√(T/ǫk))를 달성할 수 없음을 보여준다.
근사 DP 하에서는 하한이 o(³√(T log(1/δ)/(ǫ²k)))이며, 이는 상한과 다항로그 요소를 제외한 범위에서 일치한다.
결과적으로 모든 쿼리 유형(누적, 고정 창, 시간 창), 비밀성 모델(이벤트 수준, 아이템 수준), 데이터 모델(싱글톤, 번들) 조합에 대해 거의 최적의 오차 한계를 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.