Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey of Privacy Threats and Defense in Vertical Federated Learning: From Model Life Cycle Perspective

Lei Yu, Meng Han|arXiv (Cornell University)|2024. 02. 06.
Privacy-Preserving Technologies in Data인용 수 5
한 줄 요약

Vertical Federated Learning (VFL)에서의 프라이버시 위협과 방어에 대한 포괄적 설문으로, 모델 생애주기를 중심으로 구성되며, 분류 체계와 실무자를 위한 지침을 제공한다.

ABSTRACT

Vertical Federated Learning (VFL) is a federated learning paradigm where multiple participants, who share the same set of samples but hold different features, jointly train machine learning models. Although VFL enables collaborative machine learning without sharing raw data, it is still susceptible to various privacy threats. In this paper, we conduct the first comprehensive survey of the state-of-the-art in privacy attacks and defenses in VFL. We provide taxonomies for both attacks and defenses, based on their characterizations, and discuss open challenges and future research directions. Specifically, our discussion is structured around the model's life cycle, by delving into the privacy threats encountered during different stages of machine learning and their corresponding countermeasures. This survey not only serves as a resource for the research community but also offers clear guidance and actionable insights for practitioners to safeguard data privacy throughout the model's life cycle.

연구 동기 및 목표

  • VFL에서의 프라이버시 위협에 대한 구조화되고 생애주기 기반의 분류 체계를 제공한다.
  • VFL 프라이버시 문제를 HFL과 구별하고 고유한 공격 벡터를 식별한다.
  • VFL 프라이버시를 위한 암호학적 및 비암호학적 방어 메커니즘을 조사하고 분류한다.
  • VFL 프라이버시의 미해결 과제, 격차 및 향후 연구 방향을 강조한다.

제안 방법

  • VFL의 프라이버시 위협을 특징 추론, 레이블 추론, 모델 추출 공격으로 분류한다.
  • 공격자 지식, 행동 및 능력(화이트박스/블랙박스/그레이박스, 내부자 위협)을 설명한다.
  • Aggregate VFL과 Split VFL 등 VFL 아키텍처와 역할(활성/수동 당사자, 코디네이터)을 개요로 제시한다.
  • 환경 접근, 데이터 전처리, 학습, 배포, 추론 등 ML 생애주기의 단계에 위협과 방어를 매핑한다.
  • 암호학적(HE, FE, MPC) 및 비암호학적 접근법을 포함한 방어 메커니즘의 분류 체계를 제시하고, 방어 능력(신뢰된 제3자, 학습 제어, 조정, 하드웨어)을 논의한다.
  • VFL 프라이버시를 분할 학습과 연결하고 데이터 프라이버시의 실용적 보호에 대한 함의를 논의한다.
Figure 1. Different Phases of Machine Learning Life-cycle
Figure 1. Different Phases of Machine Learning Life-cycle

실험 결과

연구 질문

  • RQ1모델 생애주기 전반에서 Vertical Federated Learning의 뚜렷한 프라이버시 위협은 무엇인가?
  • RQ2VFL의 프라이버시 위험은 수평형 FL과 어떻게 다르며, 어떤 고유한 방어 전략이 효과적인가?
  • RQ3VFL 프라이버시 보호를 위한 암호학적 및 비암호학적 방어 메커니즘은 무엇이며, 그들의 요건과 트레이드오프는 무엇인가?
  • RQ4VFL에서 프라이버시를 보호하기 위한 미해결 과제와 향후 방향은 무엇인가?

주요 결과

  • VFL은 정렬된 샘플 간의 중간 결과 직접 교환 및 특징 상관관계로 인해 HFL보다 더 복잡한 프라이버시 문제가 제기된다.
  • 생애주기 기반 관점은 환경 접근, 데이터 전처리(엔터티 정렬 포함), 학습, 추론 및 배포 중 위협 벡터를 드러내고 해당 대응책을 제시한다.
  • 암호학적 방어(예: 동형암호화, 기능 암호화, 보안 MPC)와 비암호학적 방어가 고찰되며, 그들의 능력과 트레이드오프(신뢰된 제3자, 학습 제어, 조정, 하드웨어)에 대해 논의된다.
  • VFL 아키텍처는 Aggregate VFL과 Split VFL로 분류되며, 프라이버시 위험과 방어의 적용 방식에 영향을 준다.
  • 공격자 모델은 내부자 적대자(활성, 수동, 공모) 및 화이트박스, 블랙박스, 그레이박스 시나리오를 포함하고, 그래디언트/역추정 및 대리 모델 공격과 같은 전략을 다룬다.
  • 이 설문조사는 VFL 프라이버시를 HFL과 구분하는 포괄적 분류 체계를 제공하고, 모델 생애주기 전반에 걸쳐 프라이버시를 보호하기 위한 실무자용 지침을 제시한다.
Figure 2. Entity alignment in Data Processing phase.
Figure 2. Entity alignment in Data Processing phase.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.