Skip to main content
QUICK REVIEW

[논문 리뷰] Applied Federated Learning: Improving Google Keyboard Query Suggestions

Timothy T. Yang, Galen Andrew|arXiv (Cornell University)|2018. 12. 07.
Privacy-Preserving Technologies in Data참고 문헌 10인용 수 449
한 줄 요약

논문은 연합학습(Federated Learning)을 엔드투엔드로 활용하여 모바일 기기에 트리거링 모델을 학습, 평가, 배포하고, Google Keyboard의 질의 제안을 원시 사용자 데이터에 접근하지 않으면서 필터링하여 CTR을 향상하고 프라이버시를 유지하는 방법을 보여준다.

ABSTRACT

Federated learning is a distributed form of machine learning where both the training data and model training are decentralized. In this paper, we use federated learning in a commercial, global-scale setting to train, evaluate and deploy a model to improve virtual keyboard search suggestion quality without direct access to the underlying user data. We describe our observations in federated training, compare metrics to live deployments, and present resulting quality increases. In whole, we demonstrate how federated learning can be applied end-to-end to both improve user experiences and enhance user privacy.

연구 동기 및 목표

  • 상업용 모바일 키보드 기능에 대한 엔드투엔드 FL 워크플로우를 시연한다.
  • 온디바이스 FL 학습 및 집계의 프라이버시 이점과 성능을 평가한다.
  • 중앙 데이터 접근 없이 트리거링 모델이 질의 제안 품질을 개선하는 방법을 보여준다.

제안 방법

  • 서버에서 학습된 기반 모델과 FL로 학습된 트리거링 모델의 2단계 추천 시스템.
  • FL 작업을 위한 특징(feature)와 라벨(impressions/clicks)의 온디바이스 수집.
  • 중앙 데이터 접근 없이 클라이언트 업데이트를 전역 모델로 집계하는 Federated Averaging.
  • 모델 수렴 및 배포를 안내하기 위한 온디바이스 평가 및 모니터링.
  • CTR과 보유 노출 수 사이의 균형을 맞추기 위한 임계값 기반 트리거링.
  • 초기 실험에서 로지스틱 회귀를 FL 모델로 사용하고, 신경망 모델로의 확장을 잠재적으로 고려.

실험 결과

연구 질문

  • RQ1모바일 기기에서의 연합학습이 원시 사용자 데이터를 접근하지 않고도 Gboard의 질의 제안 품질을 향상시킬 수 있는가?
  • RQ2생산 환경에서 엔드투엔드 FL을 배치할 때의 실질적인 학습 역학, 제약, 프라이버시 함의는 무엇인가?
  • RQ3FL로 학습된 트리거링 모델이 전통적 기반 모델과 비교하여 클릭률(CTR)과 보유 노출에 어떤 영향을 미치는가?
  • RQ4온디바이스 프라이버시 보-preserving 학습에서 diurnal(일주기별) 디바이스 가용성 및 인구 구성 편향으로부터 어떤 문제점이 생기는가?

주요 결과

  • FL로 학습된 트리거링 모델은 선택된 임계값에서 라이브 배포에서 기준선 대비 CTR를 향상시킨다.
  • 학습은 일주기적 패턴을 보이며, 대부분의 라운드는 디바이스가 충전되고 무과금 네트워크에서 작동하는 야간에 발생한다.
  • 평가 결과, 인구 구성 편향과 환경 제약으로 인해 학습과 라이브 지표 간에 차이가 나타날 수 있다.
  • 임계값 튜닝은 트리거링 비율과 사용자 경험 간의 균형에 영향을 주어 보유 노출과 클릭을 좌우한다.
  • 로지스틱 회귀는 이 설정에서 해석 가능하고 효과적인 시작점을 제공했으며, 이후에는 LSTM 기반 텍스트 특징추출 등 더 복잡한 특징이 도입되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.