[论文解读] Gmail Smart Compose: Real-Time Assisted Writing
Smart Compose 在 Gmail 中利用大规模神经语言模型提供实时、上下文感知的写作建议,已实现生产部署、个性化、多语言支持与隐私考量。它在为数十亿用户设定的严格延迟约束下,在质量与速度之间取得平衡。
In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.
研究动机与目标
- 通过在大规模场景下减少重复输入,推动并实现更快、更准确的邮件起草。
- 解决生产神经语言模型系统中的延迟、规模、个性化、公平性与隐私等挑战。
- 评估模型架构和服务策略,以实现生产就绪的性能。
- 探索个性化和多语言扩展,以提升跨多样用户的用户体验。
提出的方法
- 使用大型英文电子邮件语料库训练并比较神经语言模型(RNN/LSTM 与 Transformer)。
- 通过嵌入和上下文编码器引入上下文特征(主题、前一封邮件、日期/时间、区域设定 locale)。
- 将预测形式化为语言建模或带注意力的 seq2seq;对前 N 个建议使用束搜索。
- 使用对数困惑度和 ExactMatch@N 进行评估,以将离线指标与在线性能相关联。
- 部署生产系统,包含流式 RPC 服务器、延迟目标(第 90 百分位 < 60 ms)以及基于 TPU 的加速。
实验结果
研究问题
- RQ1不同的模型架构(LM-A、LM-B、Seq2Seq)在实时邮件撰写任务中的表现如何?
- RQ2延迟和吞吐量的要求是什么,如何在 Gmail 规模下满足?
- RQ3个性化是否在不妥协隐私和效率的情况下提升建议质量?
- RQ4多语言模型在维持生产可行性的同时,是否能提供具有竞争力的质量?
主要发现
| 模型 | 参数数量 | 训练时间(h) | 测试对数困惑度 | ExactMatch 总体 |
|---|---|---|---|---|
| LSTM-2-1024 (no context) | 77.7M | 72 | 3.39 | 66.99% |
| LSTM-2-2048 | 171.9M | 138 | 3.13 | 68.31% |
| Transformer-768-2048 | 84.3M | 202 | 3.08 | 66.94% |
| Transformer-1536-8192 | 310.2M | 387 | 2.90 | 67.73% |
- 上下文特征相较于无上下文基线提升了语言模型的困惑度。
- 变换器(Transformer)在相似容量下提供更好的困惑度,但延迟惩罚使 LM-A 更适合生产部署。对于 LM-A,Transformer-1536-8192 在测试困惑度为 2.90、总体 ExactMatch 为 67.73% ,但延迟较高。
- 生产部署优先考虑延迟;在 CPU/TPU 上的 LM-A 结合 Cloud TPU 加速可显著提升吞吐量并降低相对延迟。
- 带线性插值的个性化 n-gram 模型与全局模型结合,在生产环境中在 ExactMatch 和 CTR 上有相对增益(约 6% CTR、约 10% ExactMatch)。
- 多语言 wordpiece 模型效果良好;在西班牙语、法语、意大利语、葡萄牙语中,单语言词模型在 ExactMatch 方面往往优于多语言变体,葡萄牙语的情况除外,多语言有帮助;总体部署采用多语言 wordpiece,并设有语言特定阈值。
- 该系统在端到端延迟目标下实现了实际的实时推断,并可扩展到亿级用户。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。