Skip to main content
QUICK REVIEW

[论文解读] Anonymizing Unstructured Data

Rajeev Motwani, Shubha U. Nabar|ArXiv.org|Oct 31, 2008
Privacy-Preserving Technologies in Data参考文献 26被引用 23
一句话总结

本文提出了一种针对集合值数据(如用户查询日志或市场篮子数据)的k-匿名模型,其中每个人的数据显示为一组私有项目。该文提出了具有O(k log k)和O(1)性能保证的近似算法,以最小化数据修改次数,同时确保每位用户的数据集与至少k−1个其他用户的数据集不可区分,实验证明其在AOL查询日志数据集上的适用性。

ABSTRACT

In this paper we consider the problem of anonymizing datasets in which each individual is associated with a set of items that constitute private information about the individual. Illustrative datasets include market-basket datasets and search engine query logs. We formalize the notion of k-anonymity for set-valued data as a variant of the k-anonymity model for traditional relational datasets. We define an optimization problem that arises from this definition of anonymity and provide O(klogk) and O(1)-approximation algorithms for the same. We demonstrate applicability of our algorithms to the America Online query log dataset.

研究动机与目标

  • 为解决如AOL查询日志和Netflix评分等发布数据集中因用户具有唯一项目集而面临重新识别的风险,以应对隐私泄露问题。
  • 形式化定义集合值数据的k-匿名机制,确保每位用户的数据集至少与k−1个其他用户的数据集相同。
  • 最小化实现k-匿名所需的项目增删次数,以保持数据效用。
  • 设计可扩展的匿名化算法,适用于大规模数据集(如包含2000万条查询的AOL日志)。

提出的方法

  • 将集合值数据的k-匿名定义为:每位用户的数据集必须与至少k−1个其他用户的数据集完全相同。
  • 将匿名化问题形式化为优化问题,目标是最小化总项目修改次数(增删操作)。
  • 设计基于聚类与集合覆盖启发式的O(k log k)-近似算法。
  • 提出一种基于贪心策略的O(1)-近似算法,具有有界近似比。
  • 通过在匿名化前将数据集划分为若干簇,实现算法的可扩展性,从而降低计算复杂度。
  • 在AOL查询日志数据集上应用该算法,将用户会话视为查询集合,并在线程级别进行匿名化处理。

实验结果

研究问题

  • RQ1如何为每个个体关联一组私有项目、且数据以集合形式存在的集合值数据集,正式定义k-匿名机制?
  • RQ2在该类数据集中,实现k-匿名所需的最少项目修改次数是多少?
  • RQ3能否设计出可扩展的算法,对如AOL查询日志这类大规模真实世界数据集进行匿名化,同时保持强隐私保障?
  • RQ4在(而非完整会话)线程级别进行匿名化,对隐私和效用分别产生何种影响?
  • RQ5在最小化项目修改的前提下,数据效用与隐私之间存在何种权衡?

主要发现

  • 所提出的O(k log k)-近似算法以有界近似比确保k-匿名,显著减少了所需的数据修改次数。
  • O(1)-近似算法实现了常数因子保证,提供了更强的理论性能边界。
  • 该算法成功应用于AOL查询日志数据集,证明了其在真实世界大规模数据上的可行性。
  • 在匿名化前对数据集进行聚类,使得算法能够高效扩展至完整的2000万条查询数据集。
  • 该方法有效防止了重新识别攻击,表现为具有相似查询模式的用户被分组在一起,从而降低了将查询与个体关联的风险。
  • 与朴素匿名化方法相比,该方法更好地保持了数据效用,因为它在实现k-匿名的同时,最小化了对原始数据的修改。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。