[论文解读] Revisiting differentially private linear regression: optimal and adaptive prediction & estimation in unbounded domain
本文提出 AdaOPS 和 AdaSSP,这两种自适应的差分隐私线性回归算法可根据数据相关量动态校准噪声,在无需手动调整超参数的情况下,实现对多样化数据集的近似最优性能。在模拟和真实数据中,这些方法显著改善了现有技术的隐私-效用权衡,在 36 个 UCI 数据集上全面优于所有基线方法。
We revisit the problem of linear regression under a differential privacy constraint. By consolidating existing pieces in the literature, we clarify the correct dependence of the feature, label and coefficient domains in the optimization error and estimation error, hence revealing the delicate price of differential privacy in statistical estimation and statistical learning. Moreover, we propose simple modifications of two existing DP algorithms: (a) posterior sampling, (b) sufficient statistics perturbation, and show that they can be upgraded into **adaptive** algorithms that are able to exploit data-dependent quantities and behave nearly optimally **for every instance**. Extensive experiments are conducted on both simulated data and real data, which conclude that both AdaOPS and AdaSSP outperform the existing techniques on nearly all 36 data sets that we test on.
研究动机与目标
- 通过整合关于优化误差和估计误差依赖关系的文献,明确差分隐私在线性回归中的理论代价。
- 开发两种现有差分隐私算法——One Posterior Sample (OPS) 和 Sufficient Statistics Perturbation (SSP) 的自适应版本,使其能根据数据特征自动调节噪声。
- 通过实证验证,自适应算法 AdaOPS 和 AdaSSP 在广泛的真实世界回归数据集上优于非自适应和固定参数方法。
- 提供一种实用的、无需参数的差分隐私线性回归框架,实现每个实例的最优或近似最优性能,而无需事先了解数据领域或最坏情况边界。
提出的方法
- 提出 AdaOPS,即 One Posterior Sample (OPS) 的自适应变体,通过数据相关的局部利普希茨常数和系数大小估计,自动选择正则化参数 λ 和噪声尺度 γ。
- 提出 AdaSSP,即 Sufficient Statistics Perturbation (SSP) 的自适应版本,根据数据的经验协方差和标签方差动态调整噪声水平。
- 采用 pDP(隐私-分布)分析,基于最优解 θ∗λ 处的局部利普希茨常数推导 (ϵ, δ)-差分隐私保证,避免依赖全局边界。
- 使用校准噪声机制,在最小化预测误差上界的同时平衡隐私与效用,通过选择使估计误差和优化误差项之和最小的 γ 和 λ 实现。
- 采用新颖的校准策略,通过利用数据特定统计量如 ∥X∥、∥Y∥ 和 ∥θ∗∥ 避免固定超参数,自适应地设定 λ 和 γ。
- 采用两阶段噪声校准:首先,选择 λ 以最小化预测误差上界;其次,根据选定的 λ 确定 γ 以满足 (ϵ, δ)-差分隐私。
实验结果
研究问题
- RQ1在差分隐私下,优化误差和估计误差对特征、标签和系数域的最优依赖关系是什么?
- RQ2如何修改现有的差分隐私线性回归算法,使其能适应数据相关量,而无需手动调整超参数?
- RQ3基于局部数据统计的自适应噪声校准是否能相比固定参数方法带来更优的隐私-效用权衡?
- RQ4自适应算法如 AdaOPS 和 AdaSSP 在具有不同数据规模和分布的多样化真实世界数据集上的理论与实证性能如何?
- RQ5噪声校准策略的选择(如集中型 vs. 扩散型)如何影响差分隐私线性回归的效用?
主要发现
- AdaOPS 和 AdaSSP 在 UCI 数据库的 36 个真实世界回归数据集上全面优于全部 11 个基线方法,其中 '平衡' 校准策略表现最强。
- 平衡型 AdaOPS 方法实现了 O(d^{1/3} n^{1/3} log(1/δ)^{1/3} ∥X∥^{4/3} ∥Y∥^{2/3} ∥θ∗∥^{4/3} / ϵ^{2/3}) 的预测误差界,表明其在隐私-效用权衡中近乎最优。
- 如图 5 所示,OPS 的 '集中' 和 '平衡' 校准策略在效用方面显著优于 '扩散' 和 '保守' 方法。
- 自适应算法在无需全局参数空间边界的情况下实现 (ϵ, δ)-差分隐私,转而依赖最优解处的局部利普希茨常数。
- 所提方法消除了从业者基于最坏情况数据假设设置隐私参数的需求,实现了自动的、实例最优的性能。
- 实证结果证实,AdaSSP 和 AdaOPS 在隐私-效用权衡方面优于现有技术,在所有 36 个测试数据集上均表现出一致的改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。