Skip to main content
QUICK REVIEW

[论文解读] Differentially Private Trajectory Data Publication

Rui Chen, Benjamin C. M. Fung|arXiv (Cornell University)|Dec 9, 2011
Privacy-Preserving Technologies in Data参考文献 47被引用 61
一句话总结

本文提出了一种用于大规模轨迹数据的依赖数据的差分隐私清洗算法,利用带噪声的前缀树自适应缩小输出域,从而提升实用性。该方法在真实世界数据集(如STM)上实现了高效的可扩展性,对计数查询和频繁序列模式挖掘具有高实用性,120万条记录的运行时间低于25秒。

ABSTRACT

With the increasing prevalence of location-aware devices, trajectory data has been generated and collected in various application domains. Trajectory data carries rich information that is useful for many data analysis tasks. Yet, improper publishing and use of trajectory data could jeopardize individual privacy. However, it has been shown that existing privacy-preserving trajectory data publishing methods derived from partition-based privacy models, for example k-anonymity, are unable to provide sufficient privacy protection. In this paper, motivated by the data publishing scenario at the Societe de transport de Montreal (STM), the public transit agency in Montreal area, we study the problem of publishing trajectory data under the rigorous differential privacy model. We propose an efficient data-dependent yet differentially private sanitization algorithm, which is applicable to different types of trajectory data. The efficiency of our approach comes from adaptively narrowing down the output domain by building a noisy prefix tree based on the underlying data. Moreover, as a post-processing step, we make use of the inherent constraints of a prefix tree to conduct constrained inferences, which lead to better utility. This is the first paper to introduce a practical solution for publishing large volume of trajectory data under differential privacy. We examine the utility of sanitized data in terms of count queries and frequent sequential pattern mining. Extensive experiments on real-life trajectory data from the STM demonstrate that our approach maintains high utility and is scalable to large trajectory datasets.

研究动机与目标

  • 为解决k-匿名等基于划分的隐私模型在保护轨迹数据隐私方面的局限性。
  • 开发一种可扩展的、依赖数据的差分隐私轨迹数据发布方法,以保持高实用性。
  • 实现在确保差分隐私严格隐私保障的前提下,实用化发布大规模轨迹数据集。
  • 通过在带噪声的前缀树结构上进行约束推理后处理,提升数据实用性。

提出的方法

  • 提出一种依赖数据的差分隐私清洗算法,通过从底层轨迹数据构建的带噪声前缀树,自适应缩小输出域。
  • 通过在每一层节点计数上应用拉普拉斯噪声来构建带噪声的前缀树,确保(ε, δ)-差分隐私。
  • 将约束推理作为后处理步骤,以强制前缀树的结构一致性,减少误报并提升实用性。
  • 将该方法应用于基本和完整轨迹数据类型,支持计数查询和频繁序列模式挖掘。
  • 通过仅关注输出域的相关部分来优化计算效率,避免数据无关方法导致的指数级膨胀。
  • 集成PrefixSpan算法用于频繁序列模式挖掘的评估,利用清洗后的数据来衡量实用性。

实验结果

研究问题

  • RQ1依赖数据的方法是否能在轨迹数据上实现比数据无关的差分隐私方法更高的实用性?
  • RQ2带噪声的前缀树构建在保护隐私的同时,对轨迹查询的实用性保持效果如何?
  • RQ3约束推理在多大程度上提升了差分隐私轨迹数据的实用性?
  • RQ4该方法在轨迹数据集规模和位置集合大小增加时的可扩展性如何?
  • RQ5清洗后的数据在真实世界数据挖掘任务(如计数查询和序列模式挖掘)中的实用性如何?

主要发现

  • 该方法在计数查询上实现了高实用性,即使在强隐私预算(ε=1.0)下也仅有最小的失真。
  • 在频繁序列模式挖掘中,该方法在ε=1.0时报告了169个真正例和仅31个假阴性,表现出优异的实用性保持能力。
  • 运行时间与数据库大小和位置集合大小均呈线性增长,120万条记录仅耗时24秒。
  • 约束推理显著减少了误报,与基线方法相比,假阴性减少了20%。
  • 该方法在不同隐私预算(ε ∈ [0.5, 1.5])和高度参数(h ∈ [6, 20])下均保持高实用性,表现出强鲁棒性。
  • 该方法是首个实用的、用于大规模轨迹数据差分隐私发布的解决方案,在效率和实用性上均优于数据无关方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。