[论文解读] SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning
SplitGuard 是一种用于检测拆分学习中训练劫持攻击的客户端检测机制,其中恶意服务器通过操纵模型更新来提取客户端数据。它通过在随机标记的数据上探测客户端模型的行为来实现;若性能显著下降,则表明存在劫持。该方法能以极低的信息泄露实现对这类攻击的有效检测。
Distributed deep learning frameworks such as split learning provide great benefits with regards to the computational cost of training deep neural networks and the privacy-aware utilization of the collective data of a group of data-holders. Split learning, in particular, achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning any task of its choice, e.g. towards outputting easily invertible values. With a concrete example already proposed (Pasquini et al., CCS '21), such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate our method's effectiveness, compare it with potential alternatives, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.
研究动机与目标
- 为解决拆分学习中恶意服务器通过操纵客户端模型来提取私有数据的训练劫持攻击风险。
- 设计一种无需服务器协作的客户端检测机制。
- 在保持高检测准确率的同时,将泄露给对手的信息降至最低。
- 实现对多样化客户端能力(包括资源受限环境)的实用化部署。
提出的方法
- SplitGuard 评估客户端模型在训练数据随机标记版本上的表现,并与原始标签下的表现进行对比。
- 基于原始任务与标签打乱任务之间损失或准确率的差异,计算 SplitGuard 分数。
- 该方法依赖于以下原理:在正确任务上诚实训练的模型在随机标签任务上性能会显著下降,而被劫持的模型则不会。
- 客户端可在训练过程中定期运行此测试,以检测操纵的早期迹象。
- 该方法与数据模态和模型架构无关,具有广泛适用性。
- 其假设是标签随机化对诚实模型的影响大于对恶意模型的影响,这是核心检测信号。
实验结果
研究问题
- RQ1客户端能否在无需服务器协作的情况下检测拆分学习中的训练劫持攻击?
- RQ2当遭受劫持时,模型在随机标签任务上的行为与在原始任务上的行为是否存在显著差异?
- RQ3SplitGuard 分数在不同数据集和模型架构下识别劫持攻击的有效性如何?
- RQ4标签共享对 SplitGuard 检测能力与隐私保护的影响是什么?
- RQ5SplitGuard 是否可推广至多客户端场景及不同客户端能力?
主要发现
- SplitGuard 通过识别在随机标记数据上性能显著下降的现象,成功检测出拆分学习中的训练劫持攻击。
- 该方法在 MNIST、Fashion-MNIST 以及 CIFAR10/100 数据集上,于各种攻击条件下均实现了高检测准确率。
- 客户端可在训练早期阶段检测到劫持,从而在服务器从中间激活中提取有意义信息之前阻止攻击。
- 即使不与服务器共享标签,该方法仍保持有效性,从而保护了隐私。
- SplitGuard 对不同数据模态和模型架构具有鲁棒性,展现出良好的泛化能力。
- 该方法对对手造成的信息泄露极低,因为它无需共享敏感的模型参数或梯度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。