Skip to main content
QUICK REVIEW

[论文解读] Federated Evaluation and Tuning for On-Device Personalization: System Design & Applications

Matthias Paulik, Matt Seigel|arXiv (Cornell University)|Feb 16, 2021
Privacy-Preserving Technologies in Data参考文献 27被引用 33
一句话总结

本文提出了一种联邦评估与调优(FE&T)系统,专为设备端机器学习个性化设计,可在不集中原始数据的前提下,实现跨用户设备的隐私保护式全局模型参数优化。该系统通过插件模块支持任意设备端计算,显著降低了用户特定词汇语音的词错误率(WER)达16.4%(相对减少),并进一步扩展至具备差分隐私保障的私有联邦学习。

ABSTRACT

We describe the design of our federated task processing system. Originally, the system was created to support two specific federated tasks: evaluation and tuning of on-device ML systems, primarily for the purpose of personalizing these systems. In recent years, support for an additional federated task has been added: federated learning (FL) of deep neural networks. To our knowledge, only one other system has been described in literature that supports FL at scale. We include comparisons to that system to help discuss design decisions and attached trade-offs. Finally, we describe two specific large scale personalization use cases in detail to showcase the applicability of federated tuning to on-device personalization and to highlight application specific solutions.

研究动机与目标

  • 解决在保护用户隐私的前提下个性化设备端机器学习系统所面临的挑战。
  • 设计一种可扩展、可扩展的联邦系统,支持在设备间对全局模型参数进行评估与调优。
  • 在不依赖固定训练框架的前提下,支持多样化机器学习个性化任务的任意设备端计算。
  • 将系统扩展以支持具备差分隐私保障的私有联邦学习。
  • 通过大规模个性化应用场景(如自动语音识别)展示系统的实际适用性。

提出的方法

  • 抽象联邦任务处理管道,将任务逻辑与系统基础设施解耦,以支持任意设备端计算。
  • 使用设备本地数据训练并评估个性化模型,将结果报告至中央服务器以进行聚合与分析。
  • 实现插件架构,由应用特定逻辑处理设备端任务执行,将计算与调度及报告解耦。
  • 通过收集并处理设备端匿名化、用户保护的数据中的推理指标(如词错误率),支持联邦评估。
  • 通过聚合评估指标对全局超参数(如个性化算法权重)进行联邦调优。
  • 将系统扩展以支持具备差分隐私保障的私有联邦学习,最大限度减少敏感模型更新的暴露。

实验结果

研究问题

  • RQ1如何在大规模场景下实现设备端机器学习系统的个性化,同时保护用户隐私?
  • RQ2何种系统架构能够支持在终端用户设备上对多样化机器学习工作负载实现灵活、可扩展的联邦评估与调优?
  • RQ3与传统联邦学习相比,全局个性化参数的联邦调优在隐私保护与性能表现方面有何差异?
  • RQ4在联邦设置下,为实现模型性能稳定可靠的评估,测试集需要多大的规模?
  • RQ5与通用模型相比,联邦调优在用户特定词汇识别准确率方面能提升多少?

主要发现

  • 当测试集包含10万个或以上语音样本时,联邦评估的估计词错误率(eWER)稳定在约13%,表明在大规模场景下具备可靠的性能度量能力。
  • 联邦评估与中央人工评估测试集之间观察到1%的绝对eWER差异,主要源于中央测试集排除了静音或仅含噪声的录音。
  • 联邦调优使用户特定词汇语音的WER相对降低了16.4%(从24.4%降至20.1%),证明了显著的个性化收益。
  • 即使在通用词汇语音上,也实现了1.4%的相对WER降低(从14.6%降至14.4%),表明系统组合具有更广泛的增益效果。
  • 该系统通过插件架构成功支持任意分布式计算,可同时支持FE&T与私有联邦学习扩展。
  • 将服务器端自动语音识别系统组合与设备端结果集成,实现了端到端最终转录准确率的评估,验证了个性化对真实用户流量的实际影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。