QUICK REVIEW

[論文レビュー] Towards Federated Learning at Scale: System Design

Keith Bonawitz, Hubert Eichner|arXiv (Cornell University)|Feb 4, 2019

Privacy-Preserving Technologies in Data参考文献 21被引用数 954

ひとこと要約

この論文は、TensorFlowを用いたモバイル端末上でのフェデレーテッド学習の生産規模システムを提示し、ハイレベルなアーキテクチャ、プロトコル、デバイスおよびサーバ設計、セキュア集約、分析、ツール、そして生産経験を詳述する。実世界の展開でFederated Averagingをスケールさせる際の課題、解決策、および未解決の問題を論じる。

ABSTRACT

Federated Learning is a distributed machine learning approach which enables model training on a large corpus of decentralized data. We have built a scalable production system for Federated Learning in the domain of mobile devices, based on TensorFlow. In this paper, we describe the resulting high-level design, sketch some of the challenges and their solutions, and touch upon the open problems and future directions.

研究の動機と目的

モバイルデバイス上でフェデレーテッド学習を大規模に展開する際の課題を動機づけ、定義する。
デバイス、サーバ、プロトコルのコンポーネントを含むエンドツーエンドのシステムアーキテクチャを説明する。
実用的なスケーラビリティと信頼性を前提とした、同期ラウンドとFederated Averagingの実装方法を説明する。
プライバシー強化（例：Secure Aggregation）およびデータセキュリティの考慮事項を論じる。
将来のシステム研究を導くためのツール、分析、およびデプロイメントの経験を概説する。

提案手法

参加者（デバイス）とクラウドサーバを含むフェデレーテッド学習プロトコルを定義する。
スケーラブルな参加を実現するための三相ラウンド（選択、設定、報告）と参加のスケールを確保するためのペース制御を説明する。
デバイスアーキテクチャ、例示的ストア、およびAndroidのIPC（AIDL）を介したオンデバイスFLランタイム統合を説明する。
コーディネータ、セレクター、マスターアグリゲータ、アグリゲータを用いたActorモデルによるサーバアーキテクチャの詳細、スケーラブルなインメモリ一時状態と並列集約を説明する。
プライバシーを高める追加機能としてのSecure Aggregationとその四ラウンドプロトコルを論じる。
デバイスの健全性とシステム性能を監視する分析と運用ツールを提示する。
モデルトレインエンジニアのワークフローを、モデリング/シミュレーション、プラン生成、バージョン管理、テスト、デプロイを含めて概説する。
アプリケーション（例：オンデバイスの次語予測、オンデバイスのアイテムランキング）と実世界での生産指標を強調する。

実験結果

リサーチクエスチョン

RQ1フェデレーテッド学習を数千万のデバイスに対して、信頼性の高い同期ラウンドでどのようにスケールさせることができるか？
RQ2大規模でのサーバ側集約とデバイス調整を効率的にするためのどのようなアーキテクチャ上の選択肢があるか？
RQ3スケーラビリティと性能を損なうことなく、(例：Secure Aggregation) でプライバシーをどのように強化できるか？
RQ4デバイス上でFLタスクを開発・テスト・デプロイするために、どのようなツール・ワークフロー・分析が必要か？
RQ5実運用におけるFLの実践的な性能とデプロイ体験はどのようなものか（例：1,000万以上のデバイス、潜在的には十億規模）？

主な発見

このシステムは、デバイス上でディープニューラルネットワークを訓練し、更新をFederated Averagingでクラウドに集約することをサポートし、個々の更新を保護するためにSecure Aggregationを使用します。
Actor Modelを用いたサーバ設計は、数十から潜在的には十億規模のデバイスに及ぶラウンドのための、スケーラブルなインメモリの一時状態と動的リソース管理を可能にします。
ペース制御と慎重に設計された選択/報告ウィンドウは、ラウンドをスケールさせ、日夜のデバイス活動を考慮しつつ、同時発生による過負荷問題を緩和しつつ対応します。
実運用の経験では同時に最大1万デバイスが参加し、約6-10%のデバイスがドロップアウトし、遅延デバイスを補うための初期参加オーバーシュートは通常130%である。
計画のバージョニングとシミュレーションでの自動テストは、オンデバイスのTensorFlowバージョンの異種性に対処し、デバイス群全体へのFLプランの安全なデプロイを可能にする。
オンデバイスの次語予測とオンデバイスのランキングタスクは、FLラウンド内で競争力のある性能向上と実用的な収束を示し、実運用では実時効率に関する洞察を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。