[论文解读] Anonymizing Unstructured Data
本文提出了一种针对集合值数据(如用户查询日志或市场篮子数据)的k-匿名模型,其中每个人的数据显示为一组私有项目。该文提出了具有O(k log k)和O(1)性能保证的近似算法,以最小化数据修改次数,同时确保每位用户的数据集与至少k−1个其他用户的数据集不可区分,实验证明其在AOL查询日志数据集上的适用性。
In this paper we consider the problem of anonymizing datasets in which each individual is associated with a set of items that constitute private information about the individual. Illustrative datasets include market-basket datasets and search engine query logs. We formalize the notion of k-anonymity for set-valued data as a variant of the k-anonymity model for traditional relational datasets. We define an optimization problem that arises from this definition of anonymity and provide O(klogk) and O(1)-approximation algorithms for the same. We demonstrate applicability of our algorithms to the America Online query log dataset.
研究动机与目标
- 为解决如AOL查询日志和Netflix评分等发布数据集中因用户具有唯一项目集而面临重新识别的风险,以应对隐私泄露问题。
- 形式化定义集合值数据的k-匿名机制,确保每位用户的数据集至少与k−1个其他用户的数据集相同。
- 最小化实现k-匿名所需的项目增删次数,以保持数据效用。
- 设计可扩展的匿名化算法,适用于大规模数据集(如包含2000万条查询的AOL日志)。
提出的方法
- 将集合值数据的k-匿名定义为:每位用户的数据集必须与至少k−1个其他用户的数据集完全相同。
- 将匿名化问题形式化为优化问题,目标是最小化总项目修改次数(增删操作)。
- 设计基于聚类与集合覆盖启发式的O(k log k)-近似算法。
- 提出一种基于贪心策略的O(1)-近似算法,具有有界近似比。
- 通过在匿名化前将数据集划分为若干簇,实现算法的可扩展性,从而降低计算复杂度。
- 在AOL查询日志数据集上应用该算法,将用户会话视为查询集合,并在线程级别进行匿名化处理。
实验结果
研究问题
- RQ1如何为每个个体关联一组私有项目、且数据以集合形式存在的集合值数据集,正式定义k-匿名机制?
- RQ2在该类数据集中,实现k-匿名所需的最少项目修改次数是多少?
- RQ3能否设计出可扩展的算法,对如AOL查询日志这类大规模真实世界数据集进行匿名化,同时保持强隐私保障?
- RQ4在(而非完整会话)线程级别进行匿名化,对隐私和效用分别产生何种影响?
- RQ5在最小化项目修改的前提下,数据效用与隐私之间存在何种权衡?
主要发现
- 所提出的O(k log k)-近似算法以有界近似比确保k-匿名,显著减少了所需的数据修改次数。
- O(1)-近似算法实现了常数因子保证,提供了更强的理论性能边界。
- 该算法成功应用于AOL查询日志数据集,证明了其在真实世界大规模数据上的可行性。
- 在匿名化前对数据集进行聚类,使得算法能够高效扩展至完整的2000万条查询数据集。
- 该方法有效防止了重新识别攻击,表现为具有相似查询模式的用户被分组在一起,从而降低了将查询与个体关联的风险。
- 与朴素匿名化方法相比,该方法更好地保持了数据效用,因为它在实现k-匿名的同时,最小化了对原始数据的修改。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。