[论文解读] Federated Learning Of Out-Of-Vocabulary Words
论文证明了通过联邦学习学习的字符级LSTM能够在设备端生成并对OOV词汇进行排序,在模拟FL中实现高精度/召回率,并实现有意义的设备端OOV词学习。
We demonstrate that a character-level recurrent neural network is able to learn out-of-vocabulary (OOV) words under federated learning settings, for the purpose of expanding the vocabulary of a virtual keyboard for smartphones without exporting sensitive text to servers. High-frequency words can be sampled from the trained generative model by drawing from the joint posterior directly. We study the feasibility of the approach in two settings: (1) using simulated federated learning on a publicly available non-IID per-user dataset from a popular social networking website, (2) using federated learning on data hosted on user mobile devices. The model achieves good recall and precision compared to ground-truth OOV words in setting (1). With (2) we demonstrate the practicality of this approach by showing that we can learn meaningful OOV words with good character-level prediction accuracy and cross entropy loss.
研究动机与目标
- 推动通过学习OOV词汇来扩展移动键盘词汇,而不将敏感文本发送到服务器。
- 展示使用基于字符的RNN在设备端进行联邦学习以学习OOV词汇的可行性。
- 在公共数据上进行的模拟FL以及在跨多语言的实际设备端FL设置中评估性能。
- 证明采样的OOV词汇是有意义的,并反映现实世界的趋势。
提出的方法
- 在设备上训练一个带有 CIFG、peephole 连接和投影层的多层 LSTM。
实验结果
研究问题
- RQ1联邦学习设置是否能够在不将原始用户文本传输到服务器的情况下学习有用的 OOV 词汇?
- RQ2生成的分布与 OOV 词的真实词频匹配程度如何?
- RQ3设备端 FL 是否收敛到跨语言的准确字符级预测和可接受的交叉熵损失?
主要发现
- 在 Reddit 数据的模拟 FL 中,模型在前 10^5 个唯一词上的精确度达到 90.56%,召回率达到 81.22%。
- 在 en_US、pt_BR 和 in_ID 中,设备端 FL 显示 top-3 字符级预测准确率为 55.8%,交叉熵为 2.35。
- 该方法在三种语言中学习了有意义的 OOV 词汇,包括流行词。
- 自适应梯度裁剪和动量在收敛性方面优于 SGD 基线。
- 顶级采样的 OOV 词与真实趋势一致,并包含俚语、缩写和姓名。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。