Skip to main content
QUICK REVIEW

[논문 리뷰] Anonymizing Unstructured Data

Rajeev Motwani, Shubha U. Nabar|ArXiv.org|2008. 10. 31.
Privacy-Preserving Technologies in Data참고 문헌 26인용 수 23
한 줄 요약

이 논문은 사용자 쿼리 로그나 마켓백킷 데이터셋과 같은 세트 기반 데이터에 대해 k-익명성 모델을 제안한다. 여기서 각 개인의 데이터는 기밀 항목의 집합으로 구성된다. 각 사용자의 항목 집합이 적어도 k−1개의 다른 사용자와 구분되지 않도록 보장하면서 데이터 수정 수를 최소화하기 위해 O(k log k) 및 O(1) 성능 보장을 갖는 근사 알고리즘을 제안하며, AOL 쿼리 로그 데이터셋에 적용하여 적용 가능성을 입증한다.

ABSTRACT

In this paper we consider the problem of anonymizing datasets in which each individual is associated with a set of items that constitute private information about the individual. Illustrative datasets include market-basket datasets and search engine query logs. We formalize the notion of k-anonymity for set-valued data as a variant of the k-anonymity model for traditional relational datasets. We define an optimization problem that arises from this definition of anonymity and provide O(klogk) and O(1)-approximation algorithms for the same. We demonstrate applicability of our algorithms to the America Online query log dataset.

연구 동기 및 목표

  • AOL 쿼리 로그나 넷플릭스 평가와 같은 공개된 데이터셋에서 유저가 고유한 항목 집합으로 재식별될 수 있는 프라이버시 유출 문제를 해결하기 위해.
  • 각 사용자의 항목 집합이 적어도 k−1명의 다른 사용자와 공유되도록 보장하는 세트 기반 데이터에 대한 k-익명성의 형식화를 위해.
  • k-익명성을 달성하기 위해 필요한 항목 추가 또는 삭제 수를 최소화하여 데이터 유틸리티를 유지하기 위해.
  • 2000만 건의 쿼리로 구성된 AOL 로그와 같은 대규모 데이터셋에 대해 확장 가능한 익명화 알고리즘을 설계하기 위해.

제안 방법

  • 각 사용자의 항목 집합이 적어도 k−1명의 다른 사용자와 동일한 집합이 되도록 요구하는 세트 기반 데이터에 대한 k-익명성 정의.
  • 전체 항목 수정 수(추가/삭제)를 최소화하는 최적화 문제로 익명화 문제를 수립.
  • 클러스터링 및 세트 커버 히우리스틱을 기반으로 한 O(k log k)-근사 알고리즘 설계.
  • 유한한 근사 비율을 갖는 탐욕적 접근을 사용한 O(1)-근사 알고리즘 개발.
  • 계산 복잡도를 줄이기 위해 데이터셋을 클러스터로 분할한 후 익명화를 수행함으로써 알고리즘의 확장성 확보.
  • 사용자 세션을 쿼리 집합으로 간주하고 스레드 단위에서 익명화함으로써 AOL 쿼리 로그 데이터셋에 알고리즘 적용.

실험 결과

연구 질문

  • RQ1각 개인이 기밀 항목의 집합과 연결된 세트 기반 데이터셋에 대해 k-익명성이 어떻게 형식화될 수 있는가?
  • RQ2이러한 데이터셋에서 k-익명성을 달성하기 위해 필요한 최소 항목 수정 수는 얼마인가?
  • RQ3대규모 실세계 데이터셋인 AOL 쿼리 로그와 같이 강력한 프라이버시 보장을 유지하면서도 확장 가능한 알고리즘을 설계할 수 있는가?
  • RQ4전체 세션 대신 스레드 단위에서 익명화하는 것이 프라이버시와 유틸리티에 어떤 영향을 미치는가?
  • RQ5항목 수정 수를 최소화할 때 데이터 유틸리티와 프라이버시 사이의 상충 관계는 무엇인가?

주요 결과

  • 제안된 O(k log k)-근사 알고리즘은 유한한 근사 비율을 확보하면서 필요한 데이터 수정 수를 크게 줄였다.
  • O(1)-근사 알고리즘은 일정 요소 보장을 제공하여 더 강력한 이론적 성능 한계를 확보했다.
  • 이 알고리즘들은 성공적으로 AOL 쿼리 로그 데이터셋에 적용되어 실세계 대규모 데이터에 대한 적용 가능성을 입증했다.
  • 익명화 이전에 데이터셋을 그룹으로 클러스터링함으로써 전체 2000만 건의 쿼리 데이터셋에 대한 효율적 확장이 가능했다.
  • 유사한 쿼리 패턴을 가진 사용자가 그룹화되어 있음을 통해 재식별 공격을 효과적으로 방지함을 입증했다.
  • 기본적인 익명화 방식보다도 유틸리티를 더 잘 유지했으며, 원본 데이터에 대한 수정 수를 최소화하면서도 k-익명성을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.