[论文解读] Ratio Utility and Cost Analysis for Privacy Preserving Subspace Projection
该论文提出RUCA,一种新颖的子空间投影方法,通过结合判别成分分析(DCA)和多类判别比(MDR)准则,优化了效用与隐私之间的权衡。通过将广义特征值问题公式化,以联合最大化目标分类的效用,同时最小化隐私敏感类别的可分性,RUCA在Census和人体活动识别(HAR)数据集上均表现出色,优于现有最先进方法,在不同隐私定价水平下均实现了更高的效用与隐私保护性能。
With a rapidly increasing number of devices connected to the internet, big data has been applied to various domains of human life. Nevertheless, it has also opened new venues for breaching users' privacy. Hence it is highly required to develop techniques that enable data owners to privatize their data while keeping it useful for intended applications. Existing methods, however, do not offer enough flexibility for controlling the utility-privacy trade-off and may incur unfavorable results when privacy requirements are high. To tackle these drawbacks, we propose a compressive-privacy based method, namely RUCA (Ratio Utility and Cost Analysis), which can not only maximize performance for a privacy-insensitive classification task but also minimize the ability of any classifier to infer private information from the data. Experimental results on Census and Human Activity Recognition data sets demonstrate that RUCA significantly outperforms existing privacy preserving data projection techniques for a wide range of privacy pricings.
研究动机与目标
- 为解决现有隐私保护数据投影方法缺乏灵活性的问题,这些方法未能有效平衡效用与隐私。
- 开发一个统一框架,将DCA(以效用为导向)和MDR(强调隐私)方法进行泛化,以实现可控的权衡。
- 使数据所有者能够选择性地最小化对私有属性的推断,同时保持在预期分类任务上的性能。
- 提供一种可扩展、数学基础坚实的隐私保护降维方法,适用于协作学习环境。
- 在不同隐私约束下,通过实证验证该方法在真实世界数据集上的优越性。
提出的方法
- RUCA通过在效用任务中平衡类间离散度与隐私敏感任务中平衡类内离散度,将广义特征值问题公式化,以联合优化效用与隐私。
- 该方法使用投影矩阵W,将高维数据X映射到低维子空间Z,即Z = W^T X,其中W通过求解广义特征值分解获得。
- 隐私参数ρp控制权衡,允许用户调节对最小化隐私类别可分性的重视程度,同时最大化效用类别的可分性。
- 该方法通过引入基于比率的效用和成本函数,量化效用增益与隐私损失的相对关系,从而泛化DCA和MDR。
- 该方法支持多个隐私敏感分类任务,并在具有标记效用类和隐私类的真实数据集上进行应用。
- 通过在结合效用与隐私目标的联合散度矩阵公式上进行广义特征值分解(GEVD),计算最优投影矩阵。
实验结果
研究问题
- RQ1能否开发一个统一框架,有效平衡数据投影中的效用与隐私,超越现有方法?
- RQ2在不同隐私定价水平下,RUCA相较于DCA、MDR、PCA和随机投影的性能如何?
- RQ3RUCA在多大程度上能保持对预期分类任务的效用,同时最小化分类器推断私有属性的能力?
- RQ4在不同隐私约束下,RUCA是否能在Census和人体活动识别(HAR)等多样化数据集上保持强性能?
- RQ5该方法能否扩展以同时支持多个隐私敏感分类任务?
主要发现
- 在Census数据集上,当ρp = 1时,RUCA在β ≥ 0.073的条件下优于DCA及其他所有方法,实现了更高的效用与更优的隐私保护。
- 在HAR数据集上,当ρp ≥ 0.226时,RUCA在所有隐私定价水平下,于活动分类和身份分类任务中均优于所有其他方法。
- 当ρp = 1000时,RUCA在身份分类任务上达到59.03%的准确率,在活动分类任务上达到69.81%,显著优于MDR(52.57%和73.46%)和随机投影(38.47%和81.72%)。
- 当K=1时,RUCA将性别分类准确率降低至接近随机水平(50%),同时在效用分类任务中损失不足1%,表明其具备强大的隐私保护能力,且效用损失极小。
- 在身份分类作为效用任务时,当ρp = 1,RUCA在活动分类(隐私任务)上达到58.91%的准确率,优于DCA(58.52%)及其他所有方法,在所有隐私定价水平下均表现更优。
- 结果表明,即使在高隐私约束下,RUCA仍能保持较高的效用性能,尤其相较于PCA和随机投影,后者在高隐私定价下表现明显下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。