QUICK REVIEW

[论文解读] Anonymizing Unstructured Data

Rajeev Motwani, Shubha U. Nabar|ArXiv.org|Oct 31, 2008

Privacy-Preserving Technologies in Data参考文献 26被引用 23

一句话总结

本文提出了一种针对集合值数据（如用户查询日志或市场篮子数据）的k-匿名模型，其中每个人的数据显示为一组私有项目。该文提出了具有O(k log k)和O(1)性能保证的近似算法，以最小化数据修改次数，同时确保每位用户的数据集与至少k−1个其他用户的数据集不可区分，实验证明其在AOL查询日志数据集上的适用性。

ABSTRACT

In this paper we consider the problem of anonymizing datasets in which each individual is associated with a set of items that constitute private information about the individual. Illustrative datasets include market-basket datasets and search engine query logs. We formalize the notion of k-anonymity for set-valued data as a variant of the k-anonymity model for traditional relational datasets. We define an optimization problem that arises from this definition of anonymity and provide O(klogk) and O(1)-approximation algorithms for the same. We demonstrate applicability of our algorithms to the America Online query log dataset.

研究动机与目标

为解决如AOL查询日志和Netflix评分等发布数据集中因用户具有唯一项目集而面临重新识别的风险，以应对隐私泄露问题。
形式化定义集合值数据的k-匿名机制，确保每位用户的数据集至少与k−1个其他用户的数据集相同。
最小化实现k-匿名所需的项目增删次数，以保持数据效用。
设计可扩展的匿名化算法，适用于大规模数据集（如包含2000万条查询的AOL日志）。

提出的方法

将集合值数据的k-匿名定义为：每位用户的数据集必须与至少k−1个其他用户的数据集完全相同。
将匿名化问题形式化为优化问题，目标是最小化总项目修改次数（增删操作）。
设计基于聚类与集合覆盖启发式的O(k log k)-近似算法。
提出一种基于贪心策略的O(1)-近似算法，具有有界近似比。
通过在匿名化前将数据集划分为若干簇，实现算法的可扩展性，从而降低计算复杂度。
在AOL查询日志数据集上应用该算法，将用户会话视为查询集合，并在线程级别进行匿名化处理。

实验结果

研究问题

RQ1如何为每个个体关联一组私有项目、且数据以集合形式存在的集合值数据集，正式定义k-匿名机制？
RQ2在该类数据集中，实现k-匿名所需的最少项目修改次数是多少？
RQ3能否设计出可扩展的算法，对如AOL查询日志这类大规模真实世界数据集进行匿名化，同时保持强隐私保障？
RQ4在（而非完整会话）线程级别进行匿名化，对隐私和效用分别产生何种影响？
RQ5在最小化项目修改的前提下，数据效用与隐私之间存在何种权衡？

主要发现

所提出的O(k log k)-近似算法以有界近似比确保k-匿名，显著减少了所需的数据修改次数。
O(1)-近似算法实现了常数因子保证，提供了更强的理论性能边界。
该算法成功应用于AOL查询日志数据集，证明了其在真实世界大规模数据上的可行性。
在匿名化前对数据集进行聚类，使得算法能够高效扩展至完整的2000万条查询数据集。
该方法有效防止了重新识别攻击，表现为具有相似查询模式的用户被分组在一起，从而降低了将查询与个体关联的风险。
与朴素匿名化方法相比，该方法更好地保持了数据效用，因为它在实现k-匿名的同时，最小化了对原始数据的修改。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。