Skip to main content
QUICK REVIEW

[논문 리뷰] Federated Learning for Mobile Keyboard Prediction

Andrew Hard, K. Praveen Kumar Rao|arXiv (Cornell University)|2018. 11. 08.
Privacy-Preserving Technologies in Data참고 문헌 27인용 수 1,105
한 줄 요약

이 논문은 CIFG LSTM 언어 모델을 모바일 디바이스에서 연합학습으로 다음 단어 예측에 사용하고, 서버에서 학습된 모델과 기준 n-그램 모델보다 리콜 지표에서 우수함을 보임을 보인다. 모바일 키보드를 위한 온-device 훈련의 실행 가능성과 프라이버시 이점을 입증한다.

ABSTRACT

We train a recurrent neural network language model using a distributed, on-device learning framework called federated learning for the purpose of next-word prediction in a virtual keyboard for smartphones. Server-based training using stochastic gradient descent is compared with training on client devices using the Federated Averaging algorithm. The federated algorithm, which enables training on a higher-quality dataset for this use case, is shown to achieve better prediction recall. This work demonstrates the feasibility and benefit of training language models on client devices without exporting sensitive user data to servers. The federated learning environment gives users greater control over the use of their data and simplifies the task of incorporating privacy by default with distributed training and aggregation across a population of client devices.

연구 동기 및 목표

  • 원시 사용자 데이터를 서버에 보내지 않고 모바일 키보드에서 다음 단어 예측을 동기부여하고 가능하게 한다.
  • 온 디바이스 학습 및 추론에 적합한 CIFG 기반 LSTM 언어 모델을 개발한다.
  • 상용 환경에서 FederatedAveraging으로 대표되는 연합학습을 서버 기반 SGD와 대조하여 평가한다.
  • 모바일 NLP 작업에서 연합 학습의 프라이버시 이점과 실용적 타당성을 입증한다.

제안 방법

  • 온-device 다음 단어 예측을 위해 670 유닛의 Coupled Input-Forget Gates (CIFG) LSTM과 10,000어 어휘를 사용한다.
  • 서버 및 온-device 데이터에서 처음부터 학습하며, 클라이언트 업데이트를 서버가 집계하는 Federated Averaging (FedAvg)을 사용한다.
  • 업데이트는 모델 가중치로만 유지하고, 온-device 데이터는 절대 업로드되지 않는다.
  • 서버 호스팅 로그, 클라이언트 캐시 및 라이브 실험을 통해 recall (top-1 및 top-3) 및 생산 지표를 평가한다.
  • 가중치를 양자화하고 입력 임베딩을 출력 프로젝션과 묶어 온-device 크기를 약 1.4 MB로 감소시킨다.

실험 결과

연구 질문

  • RQ1모바일 키보드에서 신경망 언어 모델에 대해 연합 학습이 서버 기반 학습과 대등하게 또는 이를 능가할 수 있는가?
  • RQ2온-device 연합 학습이 강력한 n-그램 기준에 비해 다음 단어 예측 리콜을 향상시키는가?
  • RQ3모바일 키보드 예측을 위해 연합 학습을 배포하는 데 있어 프라이버시 및 배포의 함의는 무엇인가?
  • RQ4실제 사용자의 라이브 실험에서 연합 CIFG가 서버 학습 모델과 비교하여 어떤 성능을 보이는가?

주요 결과

  • Federated CIFG는 서버 로그와 클라이언트 캐시 모두에서 기본 n-그램 모델보다 더 높은 리콜을 달성한다.
  • Top-1 리콜: Federated CIFG 16.4% vs Server CIFG 16.5% on server data; Top-3 리콜: Federated CIFG 27.0% vs Server CIFG 27.1% on server data.
  • 클라이언트 소유 캐시에서 Federated CIFG는 Top-1 리콜 15.8% vs Server CIFG 15.0%로 (0.8포인트 높은) 나타난다.
  • 실시간 생산 실험에서 Federated CIFG의 top-1 리콜은 5.82% 대 Server CIFG 5.76% (top-1), 그리고 Top-3 리콜은 13.75% 대 13.63% (top-3)이다.
  • Federated CIFG는 실험에서 server CIFG에 비해 top-1 및 top-3 노출 리콜에서 1%의 상대적 향상을 보인다.
  • 연합 학습은 ~4–5일 동안 1.5백만 사용자에 걸쳐 6억 문장을 처리했고, 3000 라운드 후 수렴했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.