QUICK REVIEW

[논문 리뷰] Model-based Differentially Private Data Synthesis

Fang Liu|arXiv (Cornell University)|2016. 06. 26.

Privacy-Preserving Technologies in Data참고 문헌 47인용 수 21

한 줄 요약

이 논문은 차별적 프라이버시(DF)를 마이크로데이터 합성에 통합하여 강력한 프라이버시 보장을 제공하는 베이지안 프레임워크인 모델 기반 차별적 프라이버시 데이터 합성(ModiPS)을 제안한다. 이 방법은 정의된 예산 내에서 프라이버시를 보장하면서도, 다수의 합성 데이터셋과 분산 조합 규칙을 통해 데이터 유용성을 유지한다. 또한, 공개된 데이터에서 유도된 추정량에 대해 이론적 일致성을 확보한다.

ABSTRACT

We propose model-based based differential private data synthesis (modips) in the Bayesian framework for releasing individual-level surrogate data sets for the original with strong privacy guarantee. The modips technique integrates differential privacy (DP) -- a concept discussed largely in the theoretical computer science community -- into microdata synthesis in statistical disclosure limitation. The modips guarantees individual privacy protection at a given privacy budget without making assumptions about data intruder's behaviors and knowledge. The privacy budget can be used as tuning parameters in the trade-off between privacy protection and original information preservation in synthesized surrogate data. The uncertainty from the sanitization and synthetic process in the modips can be accounted for by releasing multiple synthetic data sets and by applying the proposed variance combination rule. We also characterize the conditions for the consistency of estimators based on released synthetic data. The modips method provides a viable alternative to the currently limited choice set of microdata synthesis approaches in statistical disclosure limitation.

연구 동기 및 목표

통계적 유출 방지 분야에서 강력하고 프라이버시를 보장하는 마이크로데이터 합성 방법의 부족을 해결하기 위해.
데이터 유출자의 지식이나 행동에 대한 가정 없이도 개인의 프라이버시를 보장하는 방법을 제공하기 위해.
프라이버시 예산을 통해 프라이버시 보호와 정보 유지 간의 조정 가능한 트레이드오프를 제공하기 위해.
다수의 합성 데이터셋을 통해 정제 및 합성 과정에서 발생하는 불확실성을 반영하기 위해.
공개된 합성 데이터에서 유도된 추정량에 대해 이론적 일치성을 확립하기 위해.

제안 방법

마이크로데이터 합성을 위한 베이지안 프레임워크에 차별적 프라이버시(DP)를 통합하여 개인 수준의 프라이버시를 보장한다.
프라이버시 예산을 튜닝 파라미터로 적용하여 프라이버시와 데이터 유용성 간의 트레이드오프를 제어한다.
정제 및 합성 과정에서 발생하는 불확실성을 포괄하기 위해 다수의 합성 데이터셋을 생성한다.
다수의 합성 데이터셋 간의 추론 결과를 적절히 집계하기 위해 분산 조합 규칙을 적용한다.
데이터의 불확실성을 표현하고 사후 추론을 지원하기 위해 베이지안 계층 모델을 사용한다.
합성 데이터 기반 추정량이 원본 데이터 기반 추정량과 일致하는 조건을 도출한다.

실험 결과

연구 질문

RQ1차별적 프라이버시가 마이크로데이터 합성에 효과적으로 통합되어 강력한 개인 수준 프라이버시 보장을 확보할 수 있는가?
RQ2프라이버시 예산이 원본 통계적 성질을 유지하는 데 있어 합성 데이터의 유용성에 어떤 영향을 미치는가?
RQ3DP-합성 과정에서 발생하는 불확실성은 어떻게 적절히 정량화하고 다수의 합성 데이터셋 간에 통합할 수 있는가?
RQ4합성 데이터 기반 추정량이 원본 데이터 기반 추정량과 일치하는 조건은 무엇인가?
RQ5제안된 방법은 통계적 유출 방지 분야에서 기존 마이크로데이터 합성 기법에 대한 실질적인 대안이 될 수 있는가?

주요 결과

ModiPS 방법은 유출자의 지식에 대한 가정 없이도 정의된 프라이버시 예산 내에서 차별적 프라이버시를 보장함으로써 강력한 프라이버시 보장을 제공한다.
프라이버시 예산을 통해 프라이버시 보호와 원본 데이터 정보 유지 간의 탄력적인 트레이드오프를 가능하게 한다.
다수의 합성 데이터셋은 DP 메커니즘과 합성 과정에서 유도된 불확실성을 효과적으로 반영한다.
제안된 분산 조합 규칙을 통해 합성 데이터셋 간의 결과를 적절히 집계함으로써 타당한 통계적 추론이 가능하다.
합성 데이터 기반 추정량이 원본 데이터 기반 추정량과 일치하는 조건이 이론적으로 규명되었다.
ModiPS는 통계적 유출 방지 맥락에서 기존 마이크로데이터 합성 기법에 대한 실용적이고 이론적으로 탄탄한 대안을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.