[논문 리뷰] Recovering Private Text in Federated Learning of Language Models
본 논문은 FILM을 소개한다, 텍스트에 특화된 그래디언트 역전 공격으로 언어 모델의 연합 학습에서 128개까지의 배치에서 단일 문장 혹은 다중 문장을 복구할 수 있으며, 공용 사전학습 모델을 활용한 더 나은 프라이버시-유틸리티 트레이드오프를 제공하는 임베딩 고정(defense)을 제안한다.
Federated learning allows distributed users to collaboratively train a model while keeping each user's data private. Recently, a growing body of work has demonstrated that an eavesdropping attacker can effectively recover image data from gradients transmitted during federated learning. However, little progress has been made in recovering text data. In this paper, we present a novel attack method FILM for federated learning of language models (LMs). For the first time, we show the feasibility of recovering text from large batch sizes of up to 128 sentences. Unlike image-recovery methods that are optimized to match gradients, we take a distinct approach that first identifies a set of words from gradients and then directly reconstructs sentences based on beam search and a prior-based reordering strategy. We conduct the FILM attack on several large-scale datasets and show that it can successfully reconstruct single sentences with high fidelity for large batch sizes and even multiple sentences if applied iteratively. We evaluate three defense methods: gradient pruning, DPSGD, and a simple approach to freeze word embeddings that we propose. We show that both gradient pruning and DPSGD lead to a significant drop in utility. However, if we fine-tune a public pre-trained LM on private text without updating word embeddings, it can effectively defend the attack with minimal data utility loss. Together, we hope that our results can encourage the community to rethink the privacy concerns of LM training and its standard practices in the future.
연구 동기 및 목표
- 언어 모델의 연합 학습에서 프라이버시 문제를 촉발하고 그래디언트로부터 개인 텍스트를 회수하는 타당성을 입증한다.
- 임베딩 그래디언트를 활용하여 단어를 회복하고 문장을 재구성하는 텍스트에 특화된 공격(FILM)을 개발한다.
- 대형 LM 데이터셋에서 공격 성능을 평가하고 방어 방법을 평가한다.
- 간단한 임베딩 고정 방어를 제안하고 다양한 학습 설정에서 프라이버시-유틸리티 트레이드오프를 분석한다.
제안 방법
- 개인 배치의 후보 단어를 식별하기 위해 단어 임베딩 그래디언트에서 bag of words를 추출한다.
- 단어 집합에서 문장을 재구성하기 위해 사전 학습되었거나 기억된 언어 모델에 의해 구동되는 beam search를 사용한다.
- 복구된 문장을 정제하기 위해 perplexity와 그래디언트 노름을 결합한 사전 기반 재배치를 적용한다.
- 같은 배치에서 여러 문장을 회복하기 위해 공격을 반복적으로 적용한다.
실험 결과
연구 질문
- RQ1도청자가 federated LM 학습에서 큰 배치 크기(최대 128문장)에서 그래디언트로부터 개인 텍스트를 회복할 수 있는가?
- RQ2임베딩 그래디언트와 언어 사전을 이용한 공격이 개인 배치에서 문장을 재구성하는 데 얼마나 효과적인가?
- RQ3이 누출을 심각한 유틸리티 손실 없이 완화할 수 있는 방어책은 무엇이며, 공개 대 무작위로 초기화된 LMs에서 어떻게 성능이 다른가?
주요 결과
- FILM은 최대 128개의 문장으로 구성된 배치에서 단일 문장을 높은 정확도로 회복하고, 반복을 통해 여러 문장의 일부도 회복할 수 있다.
- 사전 학습된 LM에서 시작할 때 공격 성능이 향상되고, 학습이 진행될수록 기억화로 인해 성능이 증가한다.
- 그래디언트 가지치기와 DPSGD는 유틸리티를 크게 감소시키는 반면, 단어 임베딩을 고정하는 것은 공용 LM에서 시작할 때 FILM에 대해 최소한의 유틸리티 손실로 효과적으로 방어한다.
- 개인 텍스트로부터 처음부터 재교육하는 것은 임베딩이 고정된 상태의 공개 LM에서 시작하는 것보다 더 큰 유틸리티 손실을 수반한다.
- 이 방법은 GPT-2 base로 WikiText-103 및 Enron Email에서 작동하여 실제 세계의 LM 연합 설정에서 실용적인 프라이버시 위험을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.