QUICK REVIEW

[논문 리뷰] Ratio Utility and Cost Analysis for Privacy Preserving Subspace Projection

Mert Al, Shibiao Wan|arXiv (Cornell University)|2017. 02. 26.

Privacy-Preserving Technologies in Data참고 문헌 11인용 수 23

한 줄 요약

이 논문은 유티리티와 프라이버시 간의 트레이드오프를 최적화하기 위해 판별 성분 분석(DCA)과 다중분류 판별 비율(MDR) 기준을 결합한 새로운 부분공간 투영 방법인 RUCA를 제안한다. 목표 분류 작업에 대한 유티리티를 최대화하면서 프라이버시 민감한 클래스의 가분성은 최소화하는 일반화된 고유값 문제를 수립함으로써, RUCA는 Census 및 Human Activity Recognition 데이터셋에서 기존 최고 수준의 방법들을 능가하는 성능을 달성하며 다양한 프라이버시 가격 수준에서 유티리티와 프라이버시 보존 모두에서 뛰어난 성능을 발휘한다.

ABSTRACT

With a rapidly increasing number of devices connected to the internet, big data has been applied to various domains of human life. Nevertheless, it has also opened new venues for breaching users' privacy. Hence it is highly required to develop techniques that enable data owners to privatize their data while keeping it useful for intended applications. Existing methods, however, do not offer enough flexibility for controlling the utility-privacy trade-off and may incur unfavorable results when privacy requirements are high. To tackle these drawbacks, we propose a compressive-privacy based method, namely RUCA (Ratio Utility and Cost Analysis), which can not only maximize performance for a privacy-insensitive classification task but also minimize the ability of any classifier to infer private information from the data. Experimental results on Census and Human Activity Recognition data sets demonstrate that RUCA significantly outperforms existing privacy preserving data projection techniques for a wide range of privacy pricings.

연구 동기 및 목표

기존의 프라이버시 보장 데이터 투영 방법들이 유티리티와 프라이버시를 효과적으로 균형 잡는 데에 유연성이 부족한 문제를 해결하기 위해.
유티리티 중심의 DCA와 프라이버시 중심의 MDR 접근 방식을 통합하여 제어 가능한 트레이드오프를 가능하게 하는 통합 프레임워크를 개발하기 위해.
데이터 소유자가 의도한 분류 작업 성능을 유지하면서도 사생활 정보 속성의 추론을 선택적으로 최소화할 수 있도록 하기 위해.
협업 학습 환경에서 프라이버시 보장 차원 축소를 위한 확장 가능하고 수학적으로 타당한 방법을 제공하기 위해.
다양한 프라이버시 제약 조건 하에서 실세계 데이터셋을 대상으로 방법의 우수성을 경험적으로 검증하기 위해.

제안 방법

RUCA는 유티리티 작업을 위한 반복 간 산란과 프라이버시 민감한 작업을 위한 반복 내 산란을 균형 잡는 방식으로 유티리티와 프라이버시를 동시에 최적화하기 위해 일반화된 고유값 문제를 수립한다.
이 방법은 고차원 데이터 X를 낮은 차원의 부분공간 Z로 매핑하는 투영 행렬 W를 사용하며, Z = W^T X로 표현되며, W는 일반화된 고유값 분해를 통해 유도된다.
프라이버시 매개변수 ρp는 트레이드오프를 제어하며, 유티리티 클래스의 가분성을 최대화하면서 프라이버시 민감한 클래스의 가분성을 최소화하는 데에 중점을 두도록 사용자가 조정할 수 있다.
이 방법은 DCA와 MDR를 일반화하기 위해 유티리티와 비용 함수를 비율 기반으로 도입하여 유티리티의 상대적 이득 대비 프라이버시 손실을 정량화한다.
이 방법은 다수의 프라이버시 민감한 분류 작업을 지원하며, 레이블이 부여된 유티리티 및 프라이버시 클래스를 가진 실세계 데이터셋을 사용하여 적용된다.
최적의 투영 행렬은 유티리티 및 프라이버시 목표를 모두 포함하는 통합 산란 행렬 설정에 대해 일반화된 고유값 분해(GEVD)를 통해 계산된다.

실험 결과

연구 질문

RQ1유티리티와 프라이버시를 효과적으로 균형 잡는 통합 프레임워크를 개발할 수 있는가, 이를 통해 기존 방법들을 능가할 수 있는가?
RQ2다양한 프라이버시 가격 수준에서 RUCA는 DCA, MDR, PCA 및 랜덤 투영과 비교해 어떻게 성능을 발휘하는가?
RQ3RUCA는 의도한 분류 작업에 대한 유티리티를 얼마나 잘 유지하면서도 분류기가 사생활 정보 속성을 추론하는 능력을 얼마나 줄일 수 있는가?
RQ4Census 및 Human Activity Recognition과 같은 다양한 데이터셋에서 프라이버시 제약 조건이 변화함에 따라 RUCA는 강력한 성능을 유지하는가?
RQ5이 방법은 동시에 다수의 프라이버시 민감한 분류 작업을 지원하도록 확장될 수 있는가?

주요 결과

Census 데이터셋에서 ρp = 1인 RUCA는 β ≥ 0.073일 때 DCA 및 모든 다른 방법들을 능가하며, 더 높은 유티리티와 더 나은 프라이버시 보호를 달성한다.
HAR 데이터셋에서 ρp ≥ 0.226인 RUCA는 모든 프라이버시 가격 수준에서 활동 및 신원 분류 작업 모두에서 모든 다른 방법들을 능가한다.
ρp = 1000인 RUCA는 신원 분류에서 59.03%의 정확도와 활동 분류에서 69.81%의 정확도를 기록했으며, MDR(52.57% 및 73.46%) 및 랜덤 투영(38.47% 및 81.72%)을 크게 능가했다.
K=1일 때 RUCA는 성별 분류 정확도를 근사 무작위 수준(50%)으로 낮추었고, 유티리티 분류 정확도 손실은 1% 미만으로 유지하여 강력한 프라이버시 보호와 최소한의 유티리티 손실을 동시에 달성했다.
신원 분류를 유티리티로 삼을 때, ρp = 1인 RUCA는 활동 분류(프라이버시 작업)에서 58.91%의 정확도를 기록했으며, DCA(58.52%) 및 모든 다른 방법들을 모든 프라이버시 가격 수준에서 능가했다.
결과는 프라이버시 제약 조건이 높을 때도 RUCA가 높은 유티리티 성능을 유지함을 보여주며, 특히 PCA 및 랜덤 투영과 비교해 고프라이버시 가격 수준에서 성능이 열등한 경향을 보이는 것과 대비된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.