[论文解读] Privacy-preserving Data Splitting: A Combinatorial Approach
本文提出了一种组合框架,通过将隐私和处理约束分别建模为集合族 A 和 B,实现隐私保护的数据分割。该文引入 (A,B)-覆盖以表示最优数据碎片化,利用格罗布纳基(Gröbner bases)求解最优性,同时提出一种带有启发式优化的贪心算法以提升效率,在毫秒级时间内实现接近最优的结果,而最优解则需数小时。
Privacy-preserving data splitting is a technique that aims to protect data privacy by storing different fragments of data in different locations. In this work we give a new combinatorial formulation to the data splitting problem. We see the data splitting problem as a purely combinatorial problem, in which we have to split data attributes into different fragments in a way that satisfies certain combinatorial properties derived from processing and privacy constraints. Using this formulation, we develop new combinatorial and algebraic techniques to obtain solutions to the data splitting problem. We present an algebraic method which builds an optimal data splitting solution by using Gr\"{o}bner bases. Since this method is not efficient in general, we also develop a greedy algorithm for finding solutions that are not necessarily minimal sized.
研究动机与目标
- 将隐私保护的数据分割建模为纯粹的组合问题,通过两组子集:A(禁止的属性组合)和 B(必需共存的组)来实现。
- 将数据分割问题形式化为寻找满足隐私与处理约束的 (A,B)-覆盖。
- 开发一种基于格罗布纳基的代数方法,用于计算最优大小的数据分解。
- 设计一种贪心算法,在最优性与效率之间权衡,并引入启发式变体以在稀疏约束族下改善解的大小。
- 通过在合成数据集和医疗数据集上的执行时间与大小开销分析,评估性能。
提出的方法
- 通过定义两组集合族(A:禁止的属性组合;B:必需共存的组)将数据分割形式化为组合问题。
- 将 (A,B)-覆盖定义为将属性划分为若干片段,使得 A 中的任意集合不被完全包含于任一碎片中,且 B 中的所有集合均被完全包含于某个碎片中。
- 利用代数几何将 (A,B)-覆盖问题转化为多项式方程组,从而可通过格罗布纳基计算求解。
- 实现一种贪心算法,通过迭代将属性分配至碎片,同时遵守 B 约束并最小化 A 违反。
- 通过一种启发式方法增强贪心算法:当约束稀疏时,重新评估并重新分配属性,以减少碎片数量。
- 在合成随机图和真实医疗数据集上评估解决方案,测量执行时间与相对于最优解的大小开销。
实验结果
研究问题
- RQ1如何通过显式指定属性共存约束,将隐私保护的数据分割形式化为组合问题?
- RQ2寻找最优 (A,B)-覆盖的计算复杂度是多少?能否使用格罗布纳基等代数方法求解?
- RQ3贪心算法在执行时间与解大小方面与最优解相比表现如何?
- RQ4贪心算法的启发式改进是否能显著减少稀疏约束族下的碎片数量?
- RQ5在不同问题密度下,贪心算法与启发式算法相对于最优解的平均大小开销是多少?
主要发现
- 使用格罗布纳基的代数方法可计算最优数据分解,但可能需要数小时执行时间,因此在大规模问题中不切实际。
- 贪心算法可在毫秒级时间内找到解,相较于最优代数方法展现出显著的性能优势。
- 当 n = 5 且 ρ = 1.0 时,贪心算法与启发式算法均能一致地产生最优覆盖。
- 在中等密度约束(ρ = 0.5)且 n = 7 的情况下,启发式算法平均将碎片数量减少 3.6%,显示出对基础贪心方法的可测量改进。
- 当 n = 5 且 ρ = 0.1 时,启发式解相对于最优解的平均大小增加小于 1%,表明在稀疏情况下接近最优。
- 随着属性数量与密度的增加,贪心算法与最优解之间的性能差距扩大,而启发式算法在稀疏约束集下展现出更好的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。