Skip to main content
QUICK REVIEW

[论文解读] A Survey of Privacy Threats and Defense in Vertical Federated Learning: From Model Life Cycle Perspective

Lei Yu, Meng Han|arXiv (Cornell University)|Feb 6, 2024
Privacy-Preserving Technologies in Data被引用 5
一句话总结

对Vertical Federated Learning (VFL)中的隐私威胁与防御的综合综述,围绕模型生命周期组织,包含分类法与面向实践者的指南。

ABSTRACT

Vertical Federated Learning (VFL) is a federated learning paradigm where multiple participants, who share the same set of samples but hold different features, jointly train machine learning models. Although VFL enables collaborative machine learning without sharing raw data, it is still susceptible to various privacy threats. In this paper, we conduct the first comprehensive survey of the state-of-the-art in privacy attacks and defenses in VFL. We provide taxonomies for both attacks and defenses, based on their characterizations, and discuss open challenges and future research directions. Specifically, our discussion is structured around the model's life cycle, by delving into the privacy threats encountered during different stages of machine learning and their corresponding countermeasures. This survey not only serves as a resource for the research community but also offers clear guidance and actionable insights for practitioners to safeguard data privacy throughout the model's life cycle.

研究动机与目标

  • 提供一个结构化、基于生命周期的VFL隐私威胁分类法。
  • 将VFL隐私挑战与HFL区分开来,并识别独特的攻击向量。
  • 调查并对VFL隐私的防御机制(密码学与非密码学方法)进行分类。
  • 突出VFL隐私领域的开放挑战、缺口及未来研究方向。

提出的方法

  • 将VFL中的隐私威胁分为特征推断、标签推断和模型提取攻击。
  • 描述攻击者的知识、行为和能力(白盒/黑盒/灰盒、内部威胁)。
  • 概述VFL架构(Aggregate VFL 和 Split VFL)及角色(主动/被动方、协调者)。
  • 将威胁与防御映射到ML生命周期的阶段(环境访问、数据预处理、训练、部署、推理)。
  • 提供防御机制的分类法,包括密码学(HE、FE、MPC)和非密码学方法,并讨论防御能力(受信任的第三方、训练控制、协调、硬件)。
  • 将VFL隐私与Split Learning相关联,并讨论对实际数据隐私保护的含义。
Figure 1. Different Phases of Machine Learning Life-cycle
Figure 1. Different Phases of Machine Learning Life-cycle

实验结果

研究问题

  • RQ1在模型生命周期中,Vertical Federated Learning存在哪些不同的隐私威胁?
  • RQ2VFL中的隐私风险如何不同于 Horizontal FL,哪些独特的防御策略是有效的?
  • RQ3为保护VFL隐私提出了哪些防御机制(密码学和非密码学),它们的要求与权衡是什么?
  • RQ4在VFL中保护隐私的开放挑战与未来方向是什么?

主要发现

  • 由于直接交换中间结果以及对齐样本之间的特征相关性,VFL的隐私问题比HFL更为复杂。
  • 基于生命周期的视角揭示在环境访问、数据预处理(包括实体对齐)、训练、推理和部署阶段的威胁向量,并给出相应的对策。
  • 对密码学防御(如同态加密、功能加密、安全MPC)和非密码学防御进行了综述,讨论了它们的能力与权衡(受信任的第三方、训练控制、协调、硬件)。
  • VFL架构分为Aggregate VFL和Split VFL,影响隐私风险与防御的应用方式。
  • 攻击者模型包括内部对手(主动、被动、串通)并涵盖白盒、黑盒、灰盒场景,策略包括梯度/逆向攻击和代理模型攻击。
  • 该综述提供了区分VFL隐私威胁与HFL的全面分类法,并为从业者在整个模型生命周期中保护隐私提供指导。
Figure 2. Entity alignment in Data Processing phase.
Figure 2. Entity alignment in Data Processing phase.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。