QUICK REVIEW

[논문 리뷰] Clustering Algorithms for the Centralized and Local Models

Kobbi Nissim, Uri Stemmer|arXiv (Cornell University)|2017. 07. 15.

Privacy-Preserving Technologies in Data참고 문헌 3인용 수 26

한 줄 요약

이 논문은 중심화 모델과 로컬 모델 양쪽 모두에서 최소 봉화 구역 문제에 대해 상수 요인 근사치를 달성하는 최초의 비차별적(private) 알고리즘을 제안한다. 국소 민감성 해싱(LSH)과 비차별적 평균 및 무거운 헤비 헤터스 추정을 결합하여, 클러스터 크기의 최소 추가 오차를 유지하면서 최적 반경에 대한 상수 근사치를 달성하는 효율적인 알고리즘을 설계함으로써, 두 모델 모두에서 개선된 비차별적 k-평균 클러스터링을 가능하게 한다.

ABSTRACT

We revisit the problem of finding a minimum enclosing ball with differential privacy: Given a set of $n$ points in the Euclidean space $\mathbb{R}^d$ and an integer $t\leq n$, the goal is to find a ball of the smallest radius $r_{opt}$ enclosing at least $t$ input points. The problem is motivated by its various applications to differential privacy, including the sample and aggregate technique, private data exploration, and clustering. Without privacy concerns, minimum enclosing ball has a polynomial time approximation scheme (PTAS), which computes a ball of radius almost $r_{opt}$ (the problem is NP-hard to solve exactly). In contrast, under differential privacy, until this work, only a $O(\sqrt{\log n})$-approximation algorithm was known. We provide new constructions of differentially private algorithms for minimum enclosing ball achieving constant factor approximation to $r_{opt}$ both in the centralized model (where a trusted curator collects the sensitive information and analyzes it with differential privacy) and in the local model (where each respondent randomizes her answers to the data curator to protect her privacy). We demonstrate how to use our algorithms as a building block for approximating $k$-means in both models.

연구 동기 및 목표

중앙화 및 로컬 개인정보 보호 모델 하에서 1클러스터 문제—적어도 t개의 점을 포함하는 최소 반경의 구역을 찾는 것—에 대해 비차별적 알고리즘을 개발한다.
최적 반경 ropt에 대해 상수 요인 근사치를 달성하여 이전의 중앙화 모델에서의 O(√log n)-근사치를 향상시킨다.
1클러스터 알고리즘을 빌딩 블록으로 사용하여 비차별적 k-평균 클러스터링을 가능하게 하며, 신뢰할 수 있는 캘리브레이터가 존재하지 않는 로컬 모델로의 적용 범위를 확장한다.
비차별적 개인정보 보호 조건 하에서 반경의 상수 근사치(w = O(1))를 유지하면서 동시에 커버된 점의 수에 대한 추가 오차(Δ)를 최소화한다.

제안 방법

입력 점들의 소규모 상호배타적 부분집합을 식별하기 위해 국소 민감성 해싱(LSH) 함수의 가족을 활용하며, 그 중 하나는 약간의 최소 봉화 구역에 포함된다.
식별된 부분집합에 대해 비차별적 평균을 적용하여 봉화 구역 내의 중심을 추정함으로써, 개인 정보 보호를 유지하면서도 정확성을 확보한다.
로컬 모델에서는 LSH를 Bassily 등 [2]의 최적 로컬 헤비 헤터스 알고리즘과 결합하여 후보 구역 내에 있는 점들을 식별한다.
ϵ-LDP를 통한 노이즈 추정을 사용하여 후보 영역 내 점의 수를 추정하며, Theorem 5.3와 같은 메커니즘을 통해 비차별적 개인정보 보호를 보장한다.
랜덤 해싱을 통해 λ-독립성을 확보하여 후보 구역에서 점의 일부를 샘플링하며, 尾 꼬리 부등식을 통해 농도 한계를 확보한다.
식별된 클러스터를 반복적으로 제거하고 프로세스를 반복하여 다수의 중심을 찾는다. 이때 나머지 점의 수에 대한 임계값과 연결된 정지 조건을 사용한다.

실험 결과

연구 질문

RQ1중앙화 모델에서 비차별적 개인정보 보호 조건 하에 최소 봉화 구역 문제에 대해 상수 요인 근사치를 달성할 수 있는가? 이는 이전의 O(√log n)-근사치를 향상시킨다.
RQ2사용자가 자신의 데이터를 무작위화하는 로컬 모델에서 1클러스터 문제에 대해 효율적인 비차별적 알고리즘을 설계할 수 있는가? 이 경우 신뢰할 수 있는 캘리브레이터가 존재하지 않는다.
RQ31클러스터 알고리즘을 어떻게 확장하여 로컬 모델에서 증명 가능한 오차 범위를 갖는 비차별적 k-평균 클러스터링을 가능하게 할 수 있는가?
RQ4두 모델 모두에서 근사치 요인, 클러스터 크기의 추가 오차, 개인정보 보호 파라미터 간의 상호 교환 관계는 어떠한가?

주요 결과

제안된 중앙화 알고리즘은 최소 봉화 구역 문제에 대해 상수 근사치 요인(w = O(1))를 달성하며, 이는 이전의 O(√log n)-근사치에 비해 크게 향상되었다.
로컬 모델에서는 상수 근사치 요인을 달성하면서도 추가 오차 ∆ = O(1/ϵ · n^0.67 · log(n|X|))를 유지하여, 최소한의 신뢰를 요구하는 실용적 구현이 가능하다.
유클리드 공간 외의 일반적인 거리 공간에서도 작동하며, 국소 민감성 해싱과 비차별적 평균 계산이 가능하다면 적용 가능하다.
이 구조는 k-평균 클러스터링에 대해 최초로 증명 가능한 로컬 비차별적 알고리즘을 가능하게 하며, 오차 범위는 1클러스터 원천에서 유도된다.
반복적 프로세스는 각 반복에서 적어도 ni/(4k)개의 점을 제거함으로써 반복 횟수를 O(k log n)로 제한하여 효율적인 계산을 지원한다.
알고리즘의 실행은 비차별적 k-평균 알고리즘과 동일한 구조를 갖으며, 고확률 하에서 출력 중심 집합 B는 양 실행에서 동일하다. 이는 정확성의 타당성을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.