Skip to main content
QUICK REVIEW

[논문 리뷰] The Cost of Privacy: Optimal Rates of Convergence for Parameter Estimation with Differential Privacy

Tommaso Cai, Yichen Wang|arXiv (Cornell University)|2019. 02. 12.
Privacy-Preserving Technologies in Data참고 문헌 43인용 수 48
한 줄 요약

논문은 minimax 하한을 제시하고 이를 평균 추정(mean estimation)과 선형 회귀(linear regression)에 대한 차등 프라이버시 알고리즘과 매칭시키며, 프라이버시(epsilon, delta)와 통계적 정확도 간의 최적 교환을 저차원 및 고차원 설정에서 특징화한다.

ABSTRACT

Privacy-preserving data analysis is a rising challenge in contemporary statistics, as the privacy guarantees of statistical methods are often achieved at the expense of accuracy. In this paper, we investigate the tradeoff between statistical accuracy and privacy in mean estimation and linear regression, under both the classical low-dimensional and modern high-dimensional settings. A primary focus is to establish minimax optimality for statistical estimation with the $(\varepsilon,δ)$-differential privacy constraint. To this end, we find that classical lower bound arguments fail to yield sharp results, and new technical tools are called for. By refining the "tracing adversary" technique for lower bounds in the theoretical computer science literature, we formulate a general lower bound argument for minimax risks with differential privacy constraints, and apply this argument to high-dimensional mean estimation and linear regression problems. We also design computationally efficient algorithms that attain the minimax lower bounds up to a logarithmic factor. In particular, for the high-dimensional linear regression, a novel private iterative hard thresholding pursuit algorithm is proposed, based on a privately truncated version of stochastic gradient descent. The numerical performance of these algorithms is demonstrated by simulation studies and applications to real data containing sensitive information, for which privacy-preserving statistical methods are necessary.

연구 동기 및 목표

  • (epsilon, delta)-차등 프라이버시하에서 기본 추정 문제의 프라이버시 비용을 동기화하고 형식화한다.
  • 프라이버시 제약 하에서 mean 추정 및 linear regression에 대한 minimax 하한을 도출한다.
  • 로그 인자까지의 하한을 달성하는 차등 프라이버시 알고리즘을 설계한다.
  • 저차원 및 고차원 설정에서 프라이버시-정확도 교환의 이론적, 실증적 검증을 제공한다.

제안 방법

  • mean 추정 및 linear regression를 위한 (epsilon, delta)-DP 하에서 minimax 위험으로 프라이버시 비용을 정의한다.
  • 저차원 및 고차원 문제에 대해 sharp DP 하한을 얻기 위해 추적 적대자 기법을 다듬는다.
  • 하한을 로그 요소까지 달성하는 DP 알고리즘(가우시안/노이즈 섞인 메커니즘, 프라이빗 반복 방법)을 구성한다.
  • 좌표를 프라이빗하게 선택하는 peeling 메커니즘을 이용한 프라이빗 희소 평균 추정 방법을 도입한다.
  • 수렴 속도를 분석하고 적절한 구간에서 tilde{O}((d^2 log(1/delta)) / (n^2 epsilon^2)) 와 같은 상한을 도출한다.

실험 결과

연구 질문

  • RQ1저차원 및 고차원 설정에서 (epsilon, delta)-DP 하에서 평균 벡터와 회귀 계수 추정의 minimax 위험은 무엇인가?
  • RQ2차등 프라이버시 알고리즘이 대응하는 minimax 하한을 달성하고 수렴 속도를 최적화할 수 있는가?
  • RQ3희소성이 고차원mean 추정 및 회귀에서 프라이버시 비용에 어떤 영향을 미치는가?
  • RQ4이 최적 속도를 달성하는 실용적 프라이버시 알고리즘은 무엇이며 실증적으로 어떻게 수행되는가?
  • RQ5n, d, s*의 구간에서 프라이버시 비용이 고전적 통계 위험과 어떻게 비교되는가?

주요 결과

  • 프라이버시 비용이 통계적 위험보다 우세하게 작용하는 경우가 많으며, (d log(1/delta)) / (n epsilon^2)가 큰 경우 mean 추정에 대해 Omega(d/n + d^2 log(1/delta)/ (n^2 epsilon^2))와 같은 하한이 성립한다.
  • DP 하에서 mean 추정 및 선형 회귀에 대한 고차원용 새로운 하한이 도출되며, 속도는 (s log d)^2 / (n^2 epsilon^2) 관련 항을 포함한다.
  • 하한을 로그 요소까지 달성하는 DP 알고리즘을 제안하는데, 회귀에 대한 tilde{O}(d^2 log(1/delta)/(n^2 epsilon^2)) 수렴의 노이즈 그라디언트 디센트 방법과 희소 평균 추정기에 의한 private peeling 기반 방법이 포함된다.
  • 고차원 희소 추정의 경우 DP 속도는 (s log d)^2에 의존하며 로그 요소까지 거의 최적에 가깝고, 고차원에서 DP의 가능성을 시사한다.
  • 프라이버시-정확도 교환의 이론적 및 실증적 검증을 수치 시뮬레이션 및 실제 데이터 응용으로 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.