Skip to main content
QUICK REVIEW

[论文解读] Privacy in Search Logs

Michaela Götz, Ashwin Machanavajjhala|arXiv (Cornell University)|Apr 4, 2009
Privacy-Preserving Technologies in Data参考文献 36被引用 23
一句话总结

本文提出了 ZEALOUS,一种新颖的算法,可在强制实施 (ǫ, δ)-概率差分隐私的前提下,发布搜索日志中的频繁关键词、查询和点击记录,从而实现强大的隐私保护。实验评估表明,ZEALOUS 在对搜索质量与效率研究的实用性方面损失极小,仍能保持较高实用性。

ABSTRACT

Search engine companies collect the “database of intentions”, the histories of their users ’ search queries. These search logs are a gold mine for researchers. Search engine companies, however, are wary of publishing search logs in order not to disclose sensitive information. In this paper, we develop a novel algorithm called ZEALOUS that for the first time enables publishing frequent keywords, queries, and clicks from a search log while achieving a very strong privacy guarantee called (ǫ, δ)-probabilistic differential privacy. An extensive experimental evaluation shows that search logs published with ZEALOUS can be used for research on both search quality and search efficiency with little loss in utility. 1

研究动机与目标

  • 解决在保护用户敏感信息的前提下发布搜索日志以供研究的挑战。
  • 开发一种方法,使在不损害用户隐私的前提下,能够发布搜索日志中的频繁关键词、查询和点击记录。
  • 通过 (ǫ, δ)-概率差分隐私实现强有力的隐私保障。
  • 评估发布日志在搜索质量与搜索效率研究中的实用性。

提出的方法

  • ZEALOUS 算法对搜索日志应用 (ǫ, δ)-概率差分隐私,在发布前进行匿名化处理。
  • 其重点在于仅发布频繁的模式——关键词、查询和点击,从而降低重新识别的风险。
  • 该方法确保即使在对抗性推断下,个体用户贡献在发布数据中也难以被区分。
  • 使用隐私预算 (ǫ, δ) 控制隐私泄露的概率。
  • 该算法通过聚合频繁模式并根据隐私参数校准注入噪声来处理日志。
  • 通过优化数据实用性与隐私保障强度之间的权衡,实现实用性与隐私性的平衡。

实验结果

研究问题

  • RQ1能否在保持强隐私保障的前提下,从日志中发布频繁的搜索模式?
  • RQ2ZEALOUS 算法在搜索质量研究中的实用性保留程度如何?
  • RQ3隐私预算 (ǫ, δ) 如何影响发布搜索日志中的实用性与隐私权衡?
  • RQ4使用 ZEALOUS 发布的日志能否支持对搜索效率的有意义研究?
  • RQ5噪声注入对查询和点击频率测量准确性的影响如何?

主要发现

  • ZEALOUS 在强制实施 (ǫ, δ)-概率差分隐私的前提下,成功发布了搜索日志中的频繁关键词、查询和点击记录。
  • 发布的日志在搜索质量研究中仍保留了高实用性,准确性损失极小。
  • 即使在严格的隐私预算下,发布数据的实用性依然很强,证明了隐私-实用性权衡的有效性。
  • 该算法使研究人员能够使用发布日志对搜索效率进行有意义的分析,而不会暴露敏感用户信息。
  • 大量实验结果证实,ZEALOUS 在数据实用性损失极小的情况下,支持对搜索质量与效率的研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。