Skip to main content
QUICK REVIEW

[논문 리뷰] Practical Differentially Private Top-$k$ Selection with Pay-what-you-get Composition

David Durfee, Ryan Rogers|arXiv (Cornell University)|2019. 05. 10.
Privacy-Preserving Technologies in Data참고 문헌 11인용 수 19
한 줄 요약

이 논문은 데이터 도메인에 대한 사전 지식이 필요 없이 실용적인 비밀 보장 알고리즘을 제안한다. 지불한 만큼의 조합 프레임워크를 도입하여 실제 출력 크기에 따라 프라이버시 예산을 동적으로 조정함으로써, 제한된 민감도 모델과 제한되지 않은 민감도 모델 모두에서 효율적이고 사용자 수준의 프라이버시를 보장하는 상위-$k$ 선택을 가능하게 한다. 이로 인해 유용성과 확장성이 향상된다.

ABSTRACT

We study the problem of top-$k$ selection over a large domain universe subject to user-level differential privacy. Typically, the exponential mechanism or report noisy max are the algorithms used to solve this problem. However, these algorithms require querying the database for the count of each domain element. We focus on the setting where the data domain is unknown, which is different than the setting of frequent itemsets where an apriori type algorithm can help prune the space of domain elements to query. We design algorithms that ensures (approximate) $(ε,δ>0)$-differential privacy and only needs access to the true top-$\bar{k}$ elements from the data for any chosen $\bar{k} \geq k$. This is a highly desirable feature for making differential privacy practical, since the algorithms require no knowledge of the domain. We consider both the setting where a user's data can modify an arbitrary number of counts by at most 1, i.e. unrestricted sensitivity, and the setting where a user's data can modify at most some small, fixed number of counts by at most 1, i.e. restricted sensitivity. Additionally, we provide a pay-what-you-get privacy composition bound for our algorithms. That is, our algorithms might return fewer than $k$ elements when the top-$k$ elements are queried, but the overall privacy budget only decreases by the size of the outcome set.

연구 동기 및 목표

  • 데이터 도메인의 사전 지식 없이도 크고 알 수 없는 데이터 도메인에서 비밀 보장 상위-$k$ 선택을 가능하게 하기 위해.
  • 한 명의 사용자가 여러 개의 카운트에 영향을 줄 수 있는 제한되지 않은 민감도 또는 제한된 수의 영향만을 줄 수 있는 제한된 민감도 상황에서 사용자 수준의 프라이버시를 지원하기 위해.
  • 항상 $k$개의 요소가 반환된다고 가정하지 않고 실제 반환된 요소 수에 따라 동적으로 프라이버시 예산을 조정하여 프라이버시 예산 사용을 최소화하기 위해.
  • 데이터 사전 처리나 구조적 가정 없이 기존 데이터 파이프라인에 원활하게 통합될 수 있는 실용적인 알고리즘을 설계하기 위해.
  • 상위-$k$ 선택에 대한 비밀 보장의 조합 경계를 향상시켜 동일한 프라이버시 예산에서 더 높은 유용성을 달성하기 위해.

제안 방법

  • 상위-$\bar{k}$ 요소만을 쿼리하는 제한된 지수 기반 메커니즘(LEM)을 제안하며, 여기서 $\bar{k} \geq k$ 이므로 비용이 많이 드는 쿼리 수를 줄인다.
  • Gumbel 노이즈를 사용하여 데이터에 따라 임계값을 설정하는 전략을 도입하여 상위-$k$ 요소를 선택하면서도 프라이버시를 유지한다.
  • 지불한 만큼의 조합 규칙을 적용: 실제 출력 집합의 크기만큼만 프라이버시 예산을 감소시키며, $k$에 따라 감소시키지 않는다.
  • 상위-$k$ 선택 설정에 특화된 고급 조합 기법을 사용하여 표준 조합 경계를 초월한다.
  • 비밀 보장 제약 조건 하에서 상위-$k$ 선택의 고확률 정확성을 보장하기 위해 Gumbel 노이즈를 새로운 방식으로 적용한다.
  • 제한된 민감도와 제한되지 않은 민감도 설정 모두를 위한 프레임워크를 제공하며, 각각 $\approx \sqrt{k}$ 및 $\approx \Delta$의 프라이버시 예산 스케일링을 제공한다.

실험 결과

연구 질문

  • RQ1크고 알 수 없는 데이터 도메인에서 도메인에 대한 사전 지식 없이도 비밀 보장 상위-$k$ 선택을 수행할 수 있는가?
  • RQ2반환된 요소 수가 $k$ 이하일 경우 프라이버시 예산을 어떻게 효율적으로 관리할 수 있는가?
  • RQ3상위-$k$ 선택에 대해 조합 정리의 경계를 강화할 수 있는가? 이는 프라이버시를 희생시키지 않고도 유용성을 향상시킬 수 있다.
  • RQ4제한된 민감도와 제한되지 않은 민감도가 상위-$k$ 선택의 프라이버시 비용에 어떤 영향을 미치는가?
  • RQ5기존 데이터 시스템의 파이프라인을 수정하지 않고도 통합 가능한 실용적이고 확장 가능한 알고리즘을 설계할 수 있는가?

주요 결과

  • 제안된 알고리즘은 $\delta > 0$인 $(\varepsilon, \delta)$-비밀 보장을 보장하여 전체 도메인 지식 없이도 작동할 수 있다.
  • 모든 $\bar{k} \geq k$에 대해 상위-$\bar{k}$ 요소에만 액세스하면 되므로 탐색적 데이터 분석에 실용적이다.
  • 지불한 만큼의 조합 규칙은 실제 출력 크기만큼만 프라이버시 예산을 감소시키므로, 유용성이 향상된다.
  • 제한된 민감도의 경우 프라이버시 비용은 $\approx \Delta \varepsilon$로 스케일링되며, 제한되지 않은 민감도의 경우 $\approx \sqrt{k} \varepsilon$로 스케일링되며, 이는 표준 조합보다 더 날카롭다.
  • 제한된 지수 기반 메커니즘에서 Gumbel 노이즈를 사용함으로써 프라이버시 제약 조건 하에서 상위-$k$ 선택의 고확률 정확성과 유한 오차를 보장한다.
  • 프레임워크는 기존 데이터 시스템에 원활하게 통합 가능하며, 확장 가능한 분석 플랫폼 위에 프라이버시 레이어로 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.