QUICK REVIEW

[論文レビュー] Federated Evaluation and Tuning for On-Device Personalization: System Design & Applications

Matthias Paulik, Matt Seigel|arXiv (Cornell University)|Feb 16, 2021

Privacy-Preserving Technologies in Data参考文献 27被引用数 33

ひとこと要約

本論文では、プライバシーを守りながらも、中央集積化された生データを必要とせずに、ユーザー端末上でグローバルモデルパラメータの最適化を実現する、端末内機械学習のパーソナライゼーション向けに設計されたフェデレーテッド評価およびチューニング（FE&T）システムを提示する。このシステムは、プラグインモジュールを介して任意の端末内計算をサポートし、ユーザー固有の語彙発話に対する語誤り率（WER）を16.4%相対的に低減する。また、微分プライバシーの保証を伴うプライベートフェデレーテッドラーニングへも拡張可能である。

ABSTRACT

We describe the design of our federated task processing system. Originally, the system was created to support two specific federated tasks: evaluation and tuning of on-device ML systems, primarily for the purpose of personalizing these systems. In recent years, support for an additional federated task has been added: federated learning (FL) of deep neural networks. To our knowledge, only one other system has been described in literature that supports FL at scale. We include comparisons to that system to help discuss design decisions and attached trade-offs. Finally, we describe two specific large scale personalization use cases in detail to showcase the applicability of federated tuning to on-device personalization and to highlight application specific solutions.

研究の動機と目的

ユーザーのプライバシーを守りながら、端末内機械学習システムのパーソナライゼーションを実現する挑戦に応える。
スケーラブルで拡張性のあるフェデレーテッドシステムを設計し、端末間でグローバルモデルパラメータの評価とチューニングを可能にする。
固定されたトレーニングフレームワークに依存せずに、多様なMLパーソナライゼーションタスクに適した任意の端末内計算を可能にする。
微分プライバシーの保証を伴うプライベートフェデレーテッドラーニングをサポートするようにシステムを拡張する。
自動音声認識分野における大規模なパーソナライゼーションユースケースを通じて、実世界の適用可能性を実証する。

提案手法

フェデレーテッドタスク処理パイプラインを抽象化し、タスク論理とシステムインfraストラクチャを分離することで、任意の端末内計算をサポートする。
端末内データを用いてパーソナライズドモデルをトレーニングおよび評価し、その結果を中央サーバーに報告して集約・分析する。
アプリケーション固有の論理が端末内タスク実行を処理するプラグインアーキテクチャを実装し、計算とスケジューリング・レポートの分離を実現する。
匿名化されユーザーが保護されたデータ上で端末内で推論メトリクス（例：語誤り率）を収集・処理することで、フェデレーテッド評価をサポートする。
集約された評価メトリクスに基づき、グローバルハイパーパラメータ（例：パーソナライゼーションアルゴリズムの重み）を最適化するフェデレーテッドチューニングを適用する。
機密性の高いモデル更新の露出を最小限に抑えるために、微分プライバシーを伴うプライベートフェデレーテッドラーニングをサポートするようにシステムを拡張する。

実験結果

リサーチクエスチョン

RQ1どのようにして、ユーザーのプライバシーを守りながら、大規模に端末内機械学習システムのパーソナライズーションを実現できるか？
RQ2どのようなシステムアーキテクチャが、エンドユーザー端末上での多様なMLワークロードに対して、柔軟かつ拡張可能なフェデレーテッド評価およびチューニングを可能にするか？
RQ3フェデレーテッドチューニングによるグローバルパーソナライゼーションパラメータの最適化は、従来のフェデレーテッドラーニングと比較して、プライバシーとパフォーマンスの両面でどのように異なるか？
RQ4フェデレーテッド環境下で、モデルパフォーマンスの安定的かつ信頼性のある評価を達成するには、どの程度のテストセットサイズが必要か？
RQ5フェデレーテッドチューニングは、汎用モデルと比較して、ユーザー固有の語彙に対する認識精度をどの程度向上させられるか？

主な発見

10万件以上の発話が含まれるテストセットを用いたフェデレーテッド評価では、推定語誤り率（eWER）が13%前後で安定し、大規模な性能測定が信頼できることが示された。
フェデレーテッド評価と中央集積された人間による評価テストセットとの間で、eWERに1%の絶対差が観察されたが、これは中央セットで静音またはノイズのみの録音が除外されていたことに起因する。
フェデレーテッドチューニングにより、ユーザー固有の語彙発話においてWERが16.4%相対的に低減（24.4%から20.1%に）し、強力なパーソナライゼーション効果が実証された。
汎用語彙発話に対しても、1.4%の相対的WER低減（14.6%から14.4%に）が達成され、システム全体の組み合わせ効果が示された。
プラグインアーキテクチャを介した任意の分散計算を効果的にサポートし、FE&Tおよびプライベートフェデレーテッドラーニングへの拡張が成功した。
サーバーサイドのASRシステムの組み合わせと端末内結果の統合により、最終的な変換精度のエンドツーエンド評価が可能となり、パーソナライゼーションの実ユーザートラフィックへの影響が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。