Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Differentially Private Recurrent Language Models

H. Brendan McMahan, Daniel Ramage|arXiv (Cornell University)|2017. 10. 18.
Privacy-Preserving Technologies in Data인용 수 670
한 줄 요약

저자들은 노이즈가 있는 연합 평균(Federated Averaging) 접근법과 순간 계산자(moment accountant)를 사용하여 사용자 수준 차등 프라이버시를 적용한 대형 LSTM 언어 모델을 학습시켰으며, 비개인 모델과 비슷한 정확도를 상당한 계산 비용으로 달성하고, 데이터가 더 클수록 프라이버시가 향상됩니다.

ABSTRACT

We demonstrate that it is possible to train large recurrent language models with user-level differential privacy guarantees with only a negligible cost in predictive accuracy. Our work builds on recent advances in the training of deep networks on user-partitioned data and privacy accounting for stochastic gradient descent. In particular, we add user-level privacy protection to the federated averaging algorithm, which makes "large step" updates from user-level data. Our work demonstrates that given a dataset with a sufficiently large number of users (a requirement easily met by even small internet-scale datasets), achieving differential privacy comes at the cost of increased computation, rather than in decreased utility as in most prior work. We find that our private LSTM language models are quantitatively and qualitatively similar to un-noised models when trained on a large dataset.

연구 동기 및 목표

  • 순환언어모델에 대해 강력한 사용자 수준 차등 프라이버시 보장을 제공한다.
  • 사용자 수준에서 프라이버티를 달성하기 위해 노이즈와 클리핑을 Federated Averaging에 확장한다.
  • private LSTMs가 큰 데이터셋에서 비-개인 성능과 일치할 수 있음을 입증한다.
  • 복합 모델의 비공개 학습 파라미터 조정에 대한 실용적 지침을 제공한다.

제안 방법

  • 모델 학습에 사용자 인접 차등 프라이시를 적용한다.
  • 랜덤 사용자 샘플링, 각 사용자 업데이트의 클리핑, 가우시안 노이즈를 포함한 노이즈가 추가된 Federated Averaging(DP-FedAvg)을 도입한다.
  • 가중 평균 시 사용되는 두 가지 한정 민감도 추정기(tilde{f}_f 및 tilde{f}_c)를 사용한다.
  • 집계 전에 L2 노름을 한정하기 위해 각 사용자 업데이트를 클립한다.
  • 추정된 민감도에 비례하여 가우시안 노이즈를 추가하고 Moments Accountant로 프라이버시 손실을 한정한다.
  • 샘플링에 의한 증폭을 활용하여 큰 데이터셋에서 더 촘촘한 DP 보장을 얻는다.

실험 결과

연구 질문

  • RQ1대규모 순환 언어 모델의 학습에 사용자 수준 차등 프라이버시를 실제로 적용하되 유용성 손실을 지나치게 초래하지 않을 수 있는가?
  • RQ2클리핑과 노이즈 설정의 다른 조합에서 DP-FedAvg의 정확도와 프라이버시 트레이드오프는 어떻게 되는가?
  • RQ3데이터셋 크기가 달성 가능한 프라이버시 보장과 모델 유용성에 어떤 영향을 미치는가?
  • RQ4LSTMs의 비공개 학습에서 클리핑 경계와 노이즈를 조정하기 위한 실용적인 가이드라인은 무엇인가?

주요 결과

  • 개인화된 LSTM 언어 모델은 큰 데이터셋에서 강한 사용자 수준 DP 하에서 비개인 수준의 정확도에 근접하게 달성할 수 있다.
  • 763,430명의 사용자 데이터셋에서 비공개 학습은 4120 라운드에서 17.5% 정확도를 달성하는 반면, (4.6, 1e-9) DP를 사용하는 비공개 학습은 매 라운드당 약 5000명의 사용자를 처리하며 비슷한 정확도를 4980 라운드에서 달성하고 계산 비용은 약 60배.
  • 데이터셋 크기를 약 1e8명으로 증가시키면 같은 프레임워크에서 유사한 유틸리티로 (1.2, 1e-9)로 프라이버시를 향상시킬 수 있다.
  • DP-FedAvg는 DP 하에서 복잡한 모델(임베딩 + 밀집 상태 전이) 학습을 가능하게 하지만 유용성 손실이 크게는 아니고 다소 높은 계산 비용이 든다.
  • 실험 결과는 파라미터 조정에 대한 지침을 제공하며, 데이터셋이 충분히 클 때 프라이버시 비용은 유용성 손실보다 계산에 의해 더 크게 좌우될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.