Skip to main content
QUICK REVIEW

[论文解读] Worst-Case Background Knowledge for Privacy-Preserving Data Publishing

David Martín, Daniel Kifer|arXiv (Cornell University)|May 19, 2007
Privacy-Preserving Technologies in Data参考文献 29被引用 18
一句话总结

本文提出了一种用于隐私保护数据发布中 worst-case 背景知识的正式框架,通过逻辑语言中的基本蕴含关系建模攻击者知识。该框架提出了一种多项式时间算法,用于在最多 k 项此类知识下计算最大披露程度,并提供一种数据净化方法,确保 worst-case 揭露程度始终低于预设阈值,相较于 k-匿名或 ℓ-多样性提供了更强的隐私保障。

ABSTRACT

Recent work has shown the necessity of considering an attacker's background knowledge when reasoning about privacy in data publishing. However, in practice, the data publisher does not know what background knowledge the attacker possesses. Thus, it is important to consider the worst-case. In this paper, we initiate a formal study of worst-case background knowledge. We propose a language that can express any background knowledge about the data. We provide a polynomial time algorithm to measure the amount of disclosure of sensitive information in the worst case, given that the attacker has at most a specified number of pieces of information in this language. We also provide a method to efficiently sanitize the data so that the amount of disclosure in the worst case is less than a specified threshold.

研究动机与目标

  • 正式建模攻击者在重新识别发布数据中个体时可能持有的 worst-case 背景知识。
  • 在受限的攻击者知识下,量化敏感信息的最大披露程度,以 k 项基本蕴含关系为度量单位。
  • 开发一种高效算法,可在不预先知晓攻击者具体背景知识的情况下,计算 worst-case 揭露程度。
  • 提供一种净化方法,确保即使在 worst-case 背景知识下,披露程度也始终低于用户指定的阈值。
  • 通过基本蕴含的逻辑语言,将背景知识的类别扩展至更丰富的类型,超越 k-匿名与 ℓ-多样性。

提出的方法

  • 本文定义了一种基本蕴含的逻辑语言,用于表达关于数据的任何可能背景知识,例如函数依赖或属性-值约束。
  • 引入了 (c,k)-安全性的概念,其中 c 为披露阈值,k 为攻击者可能持有的基本蕴含的最大数量。
  • 开发了一种多项式时间算法,用于计算所有可能的 k 项基本蕴含集合下的 worst-case 揭露程度,从而实现高效的隐私分析。
  • 该框架可与现有的格搜索算法集成,以寻找对所有可能的 k 项背景知识集合均鲁棒的分桶化(数据匿名化)方案。
  • 该方法采用分桶化——将元组分组并置换敏感属性值——同时泛化非敏感属性,以防止重新识别。
  • 该方法确保即使在 worst-case 情况下,只有当攻击者拥有超过 k 项相关背景知识时,敏感值的披露概率才会超过阈值 c。

实验结果

研究问题

  • RQ1当攻击者持有最多 k 项背景知识时,敏感信息的最大披露量是多少?
  • RQ2我们能否在不知晓攻击者确切知识的情况下,高效计算出 worst-case 揭露程度?
  • RQ3我们能否对数据集进行净化,使得即使在 worst-case 背景知识下,披露程度也始终低于指定阈值?
  • RQ4与 k-匿名和 ℓ-多样性等现有隐私模型相比,该方法在应对背景知识方面的鲁棒性如何?
  • RQ5用于表达背景知识的逻辑语言选择,对最终净化结果的保守性有何影响?

主要发现

  • 本文提出了一种多项式时间算法,用于在攻击者持有最多 k 项基本蕴含关系时,计算敏感信息的最大披露程度,从而实现高效的隐私分析。
  • 该框架确保可执行 (c,k)-安全的净化,即在任何 k 项背景知识集合下,披露程度均不会超过阈值 c。
  • 与 ℓ-多样性相比,该方法在隐私鲁棒性方面表现更优,因为它能防范更广泛的背景知识类别,包括复杂的逻辑组合。
  • 该方法计算效率高,并可与现有的基于格的搜索算法集成,以寻找最优分桶化方案。
  • 实验结果表明,ℓ-多样性与所提出的 (c,k)-安全模型具有相似的最大披露程度,表明 (c,k)-安全提供了更强的隐私保障。
  • 该框架具有可扩展性:通过在基本蕴含的语言中增加更具表达力的原子项,可减少净化过程中的过度保守性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。