QUICK REVIEW

[논문 리뷰] Privacy-Utility Tradeoffs under Constrained Data Release Mechanisms

Ye Wang, Y. Ozan Basciftci|arXiv (Cornell University)|2017. 10. 25.

Privacy-Preserving Technologies in Data참고 문헌 16인용 수 28

한 줄 요약

이 논문은 제한된 데이터 접근 조건 하에서 데이터 공개 메커니즘의 프라이버시-유용성 트레이드오프를 연구하며, 전체 데이터 접근이 가장 우수한 트레이드오프를 제공하고, 유용한 데이터만, 그 다음으로 민감한 데이터만의 순서로 이어진다고 보여준다. 이는 트레이드오프 영역의 계층을 수립하고, 공통 정보를 기반으로 출력 편향 기법이 전체 데이터 성능을 재현할 수 있는 조건을 규명하며, 비대칭 프라이버시 측정법인 최대 유출과 같은 방법이 새로운 '연결성 부등식'을 위반할 수 있음을 드러낸다.

ABSTRACT

Privacy-preserving data release mechanisms aim to simultaneously minimize information-leakage with respect to sensitive data and distortion with respect to useful data. Dependencies between sensitive and useful data results in a privacy-utility tradeoff that has strong connections to generalized rate-distortion problems. In this work, we study how the optimal privacy-utility tradeoff region is affected by constraints on the data that is directly available as input to the release mechanism. In particular, we consider the availability of only sensitive data, only useful data, and both (full data). We show that a general hierarchy holds: the tradeoff region given only the sensitive data is no larger than the region given only the useful data, which in turn is clearly no larger than the region given both sensitive and useful data. In addition, we determine conditions under which the tradeoff region given only the useful data coincides with that given full data. These are based on the common information between the sensitive and useful data. We establish these results for general families of privacy and utility measures that satisfy certain natural properties required of any reasonable measure of privacy or utility. We also uncover a new, subtler aspect of the data processing inequality for general non-symmetric privacy measures and discuss its operational relevance and implications. Finally, we derive exact closed-analytic-form expressions for the privacy-utility tradeoffs for symmetrically dependent sensitive and useful data under mutual information and Hamming distortion as the respective privacy and utility measures.

연구 동기 및 목표

민감한 데이터 또는 유용한 데이터에 대한 접근이 제한된 상황에서 데이터 공개 메커니즘의 프라이버시-유용성 트레이드오프 영역에 미치는 영향을 분석하기 위해.
세 가지 데이터 접근 시나리오: 전체 데이터, 유용한 데이터만, 민감한 데이터만에 대한 기본적인 계층 구조를 수립하기 위해.
민감한 데이터와 유용한 데이터 간의 공통 정보를 기반으로 출력 편향 기법이 전체 데이터 기법과 동일한 트레이드오프 영역을 달성할 수 있는 조건을 규명하기 위해.
비대칭 프라이버시 측정법, 예를 들어 최대 유출과 차별적 프라이버시에 대해 새로운 '연결성 부등식'의 운영적 영향을 조사하기 위해.
상호정보량과 하밍 거리 왜곡을 사용한 대칭적 의존성 데이터에 대한 프라이버시-유용성 트레이드오프의 정확한 폐형 표현을 유도하기 위해.

제안 방법

일반화된 프라이버시-유용성 프레임워크를 도입하여 임의의 데이터 관측 제약 조건을 허용하며, 민감한 데이터만, 유용한 데이터만, 또는 둘 다 이용 가능한 경우를 모델링한다.
일반적인 프라이버시 측정법 $ J(X;Z) $ 과 유용성 측정법 $ D(P_{Y,Z}) $ 를 도입하며, 합리적인 측정법에 필요한 자연스러운 공리적 성질만 요구한다.
정보이론적 부등식을 사용하여 트레이드오프 영역의 계층을 수립하며, 전체 데이터 기법이 출력 편향 및 추론 기법을 모두 우월함을 증명한다.
비대칭 프라이버시 측정법을 위한 새로운 '연결성 부등식' $ J(X;Z) \leq J(Y;Z) $ 를 규명하며, 이는 표준 후처리 부등식과 다릅니다.
대칭 쌍 분포 $ (X,Y) \sim SP(m,p) $ 에서 상호정보량과 하밍 거리 왜곡을 사용하여 프라이버시-유용성 트레이드오프의 정확한 폐형 해를 도출한다.
세 가지 기법을 분석: 전체 데이터, 출력 편향(자기 Z는 Y에만 의존), 추론(자기 Z는 X에만 의존)하며, 각 기법의 트레이드오프 영역을 비교한다.

실험 결과

연구 질문

RQ1공개 메커니즘이 민감한 데이터만, 유용한 데이터만, 또는 둘 다에만 접근할 경우 프라이버시-유용성 트레이드오프 영역은 어떻게 변화하는가?
RQ2출력 편향 기법이 전체 데이터 기법과 동일한 프라이버시-유용성 트레이드오프를 달성할 수 있는 조건은 무엇인가?
RQ3민감한 데이터와 유용한 데이터 간의 공통 정보가 트레이드오프 영역의 동등성 결정에 어떤 역할을 하는가?
RQ4최대 유출과 차별적 프라이버시와 같은 비대칭 프라이버시 측정법이 새로 규명된 '연결성 부등식'과 어떻게 상호작용하는가?
RQ5대칭적 의존성 데이터에 대해 상호정보량과 하밍 거리 왜곡 하에서 프라이버시-유용성 트레이드오프의 정확한 폐형 표현은 무엇인가?

주요 결과

전체 데이터 기법의 프라이버시-유용성 트레이드오프 영역은 추론 기법보다 엄격히 크며, 출력 편향 기법의 영역은 그 사이에 위치한다.
출력 편향 기법이 전체 데이터 기법과 동일한 트레이드오프 영역을 달성하는 것은 X와 Y 간의 공통 정보가 그들의 상호정보량과 정확히 일치할 때에만 가능하다.
대칭적 의존성 데이터 $ (X,Y) \sim SP(m,p) $ 에서 최적의 출력 편향 기법은 분포 $ P_N(n) = 1-t $ (n=0일 때) 및 나머지 경우 $ t/(m-1) $ 의 노이즈를 추가하며, 여기서 $ t = \min(\delta, 1 - 1/m) $ 이다.
추론 기법은 $ p \notin (\delta, (m-1)(1 - \delta)) $ 일 때에만 유한한 프라이버시-유용성 트레이드오프를 달성하며, 그 외의 경우는 왜곡 예산 내에서 타당한 해가 존재하지 않음을 의미하는 무한한 트레이드오프를 보인다.
Sibson 상호정보량의 무한 차수와 정보 프라이버시 측정법은 후처리 및 연결성 부등식을 모두 만족하지만, 최대 유출과 차별적 프라이버시는 연결성 부등식을 위반할 수 있다.
논문은 상호정보량과 하밍 거리 왜곡 하에서 최적의 프라이버시-유용성 트레이드오프에 대한 정확한 폐형 표현을 제공하며, $ \pi_{\text{OP}}(\delta) = r_m\left(p + \delta\left(1 - \frac{pm}{m-1}\right)\right) $ ( $ \delta < 1 - 1/m $ 일 때) 및 그 외의 경우 0이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.