Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Federated Learning at Scale: System Design

Keith Bonawitz, Hubert Eichner|arXiv (Cornell University)|2019. 02. 04.
Privacy-Preserving Technologies in Data참고 문헌 21인용 수 954
한 줄 요약

이 논문은 TensorFlow를 사용한 모바일 기기에서의 연합학습(Federated Learning) 생산 규모 시스템을 제시하고, 고수준 아키텍처, 프로토콜, 디바이스 및 서버 설계, 보안 집계, 분석, 도구 및 생산 경험을 자세히 다룬다. 실제 배포에서 Federated Averaging을 확장하는 데 있어 도전과제, 해결책 및 남은 이슈를 논의한다.

ABSTRACT

Federated Learning is a distributed machine learning approach which enables model training on a large corpus of decentralized data. We have built a scalable production system for Federated Learning in the domain of mobile devices, based on TensorFlow. In this paper, we describe the resulting high-level design, sketch some of the challenges and their solutions, and touch upon the open problems and future directions.

연구 동기 및 목표

  • 모바일 기기에서 대규모로 Federated Learning을 배포하는 데 따른 도전과제를 동기 부여하고 정의한다.
  • 디바이스, 서버 및 프로토콜 구성요소를 포함한 엔드 투 엔드 시스템 아키텍처를 설명한다.
  • 실제적인 확장성과 신뢰성을 갖춘 동기식 라운드와 Federated Averaging의 구현 방법을 설명한다.
  • 개인정보 보호 개선(예: Secure Aggregation)과 데이터 보안 고려사항을 논의한다.
  • 향후 시스템 연구를 안내하기 위한 도구, 분석 및 배포 경험을 개요한다.

제안 방법

  • 참여자(디바이스)와 클라우드 서버를 포함하는 연합 학습 프로토콜을 정의한다.
  • 확장 가능한 참여를 위한 세 단계 순환(선정/구성/보고)과 페이스 스티어링을 설명한다.
  • 디바이스 아키텍처, 예시 스토어, Android의 IPC(AIDL)을 통한 온-디바이스 FL 런타임 통합을 설명한다.
  • 코디네이터, 셀렉터, 마스터 애그리게이터, 애그리게이터를 포함하는 액터 모델 기반의 서버 아키텍처를 상세히 설명하여 확장 가능한 인메모리의 임시 상태와 병렬 집계를 구현한다.
  • 개인정보 보호 강화를 위한 기능으로서 Secure Aggregation과 그 네 단계 프로토콜을 논의한다.
  • 디바이스 상태와 시스템 성능을 모니터링하기 위한 분석 및 운영 도구를 제시한다.
  • 모델 엔지니어 워크플로우를 개요하며, 모델링/시뮬레이션, 계획 생성, 버전 관리, 테스트 및 배포를 포함한다.
  • 온-디바이스 다음 단어 예측, 온-디바이스 아이템 순위 매김 등의 애플리케이션과 경험적 생산 지표를 강조한다.

실험 결과

연구 질문

  • RQ1수천만 대의 디바이스로 확장 가능한 동기식 라운드를 신뢰성 있게 달성하기 위해 연합 학습을 어떻게 확장할 수 있는가?
  • RQ2대규모에서 효율적인 서버 측 집계와 디바이스 조정을 가능하게 하는 어떤 아키텍처 선택이 있는가?
  • RQ3확장성 및 성능을 해치지 않으면서 개인정보 보호를 어떻게 강화할 수 있는가(예: Secure Aggregation)?
  • RQ4디바이스에서 FL 태스크를 개발, 테스트, 배포하는 데 필요한 도구, 워크플로우 및 분석은 무엇인가?
  • RQ5생산 환경에서의 FL의 실용적 성능 및 배포 경험은 어떠한가(예: 10M+ 디바이스, 잠재적 수십억 대)?

주요 결과

  • 시스템은 Federated Averaging을 통해 클라우드에서 업데이트를 집계하고 온-디바이스에서 딥 뉴럴 네트워크를 학습하도록 지원하며, 개인 업데이트를 보호하기 위해 Secure Aggregation을 사용한다.
  • 액터 모델을 사용하는 서버 설계는 수십에서 잠재적으로 수십억 대의 디바이스에 이르는 집단에 대한 라운드에 대해 확장 가능한 인메모리의 임시 상태와 동적 자원 관리를 가능하게 한다.
  • 페이스 스티어링과 신중하게 설계된 선정/보고 창은 라운드를 확장하고 주기적인 디바이스 활동을 반영하면서 Thundering Herd 문제를 완화한다.
  • 실증적 생산 경험은 동시 최대 1만대의 디바이스가 참여하고 약 6-10%의 디바이스 이탈과 느린 참가자 보상을 위해 일반적으로 초기 참여 초과가 130%인 것으로 나타났다.
  • 계획 버전 관리와 시뮬레이션에서의 자동화된 테스트는 온-디바이스 TensorFlow 버전의 이질성을 다루며 디바이스 파견에 걸친 FL 계획의 안전한 배포를 가능하게 한다.
  • 온-디바이스 다음 단어 예측 및 온-디바이스 랭킹 태스크는 FL 라운드 내에서 경쟁력 있는 성능 향상과 실용적인 수렴을 보이며, 작업 시간 효율성에 대한 생산 인사이트를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.