QUICK REVIEW

[논문 리뷰] SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning

Ege Erdoğan, Alpteki̇n Küpçü|arXiv (Cornell University)|2021. 08. 20.

Adversarial Robustness in Machine Learning인용 수 8

한 줄 요약

SplitGuard는 분할 학습에서 악성 서버가 모델 업데이트를 조작하여 클라이언트 데이터를 유출하는 공격을 탐지하기 위한 클라이언트 측 메커니즘입니다. 이는 무작위 레이블이 부여된 데이터에서 클라이언트 모델의 동작을 점검함으로써 작동하며, 성능 저하가 심하게 발생하면 유출 공격가능성을 시사합니다. 이 방법은 정보 泄露를 최소화하면서도 효과적으로 이러한 공격을 탐지합니다.

ABSTRACT

Distributed deep learning frameworks such as split learning provide great benefits with regards to the computational cost of training deep neural networks and the privacy-aware utilization of the collective data of a group of data-holders. Split learning, in particular, achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning any task of its choice, e.g. towards outputting easily invertible values. With a concrete example already proposed (Pasquini et al., CCS '21), such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate our method's effectiveness, compare it with potential alternatives, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.

연구 동기 및 목표

분할 학습에서 악성 서버가 클라이언트 모델을 조작하여 민감한 데이터를 유출하는 위험을 해결하기 위해.
서버의 협조가 필요 없는 클라이언트 측 탐지 메커니즘을 설계하기 위해.
높은 탐지 정확도를 유지하면서도 적은 정보 유출을 최소화하기 위해.
자원 제약이 있는 환경을 포함한 다양한 클라이언트 환경에서도 실용적으로 구현 가능하도록 하기 위해.

제안 방법

SplitGuard는 훈련 데이터의 무작위 레이블 버전에서 클라이언트 모델의 성능을 평가하고, 원본 레이블에서의 성능와 대비하여 분석합니다.
원본 레이블 작업과 랜덤 레이블 작업 간의 손실 또는 정확도 차이를 기반으로 SplitGuard 점수를 계산합니다.
이 방법은 정직하게 학습된 모델는 랜덤 레이블 작업에서 성능이 크게 떨어지지만, 조작된 모델는 그렇지 않을 수 있다는 원리를 기반으로 합니다.
클라이언트는 학습 중에 이 테스트를 주기적으로 수행하여 조작의 조기 징후를 탐지할 수 있습니다.
이 방법은 데이터 모odal과 모델 아키텍처에 관계없이 적용 가능하므로 광범위하게 적용 가능합니다.
이 방법은 레이블 무작위화가 정직한 모델에 비해 악성 모델에 더 적은 영향을 미친다는 가정에 기반하며, 이것이 핵심 탐지 신호입니다.

실험 결과

연구 질문

RQ1클라이언트는 서버의 협조 없이 분할 학습에서 학습 유도 공격을 탐지할 수 있는가?
RQ2유도 공격을 당한 상황에서, 랜덤 레이블 작업에서의 모델 동작이 원래 작업과 유의미하게 다를 수 있는가?
RQ3SplitGuard 점수가 다양한 데이터셋과 모델 아키텍처에서 유도 공격을 식별하는 데 얼마나 효과적인가?
RQ4레이블 공유가 SplitGuard의 탐지 능력과 프라이버시에 어떤 영향을 미치는가?
RQ5SplitGuard는 다중 클라이언트 환경과 다양한 클라이언트 능력에 일반화될 수 있는가?

주요 결과

SplitGuard는 무작위 레이블 데이터에서의 성능 저하를 식별함으로써 분할 학습에서의 학습 유도 공격을 성공적으로 탐지합니다.
MNIST, Fashion-MNIST, CIFAR10/100 데이터셋에서 다양한 공격 조건 하에서도 높은 탐지 정확도를 달성합니다.
클라이언트는 서버가 중간 활성화값으로부터 의미 있는 정보를 추출하기 전에 공격 조기 탐지가 가능합니다.
레이블을 서버와 공유하지 않더라도 이 방법은 효과를 유지하며, 프라이버시를 보호합니다.
SplitGuard는 다양한 데이터 모달리티와 모델 아키텍처에 대해 강건하며, 일반화 가능성을 입증합니다.
감지에 필요한 민감한 모델 파라미터나 기울기 정보를 공유하지 않기 때문에, 적은 정보 유출만을 초래합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.