Skip to main content
QUICK REVIEW

[论文解读] Gmail Smart Compose: Real-Time Assisted Writing

Mia Xu Chen, Benjamin N. Lee|arXiv (Cornell University)|May 17, 2019
Topic Modeling参考文献 46被引用 45
一句话总结

Smart Compose 在 Gmail 中利用大规模神经语言模型提供实时、上下文感知的写作建议,已实现生产部署、个性化、多语言支持与隐私考量。它在为数十亿用户设定的严格延迟约束下,在质量与速度之间取得平衡。

ABSTRACT

In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.

研究动机与目标

  • 通过在大规模场景下减少重复输入,推动并实现更快、更准确的邮件起草。
  • 解决生产神经语言模型系统中的延迟、规模、个性化、公平性与隐私等挑战。
  • 评估模型架构和服务策略,以实现生产就绪的性能。
  • 探索个性化和多语言扩展,以提升跨多样用户的用户体验。

提出的方法

  • 使用大型英文电子邮件语料库训练并比较神经语言模型(RNN/LSTM 与 Transformer)。
  • 通过嵌入和上下文编码器引入上下文特征(主题、前一封邮件、日期/时间、区域设定 locale)。
  • 将预测形式化为语言建模或带注意力的 seq2seq;对前 N 个建议使用束搜索。
  • 使用对数困惑度和 ExactMatch@N 进行评估,以将离线指标与在线性能相关联。
  • 部署生产系统,包含流式 RPC 服务器、延迟目标(第 90 百分位 < 60 ms)以及基于 TPU 的加速。

实验结果

研究问题

  • RQ1不同的模型架构(LM-A、LM-B、Seq2Seq)在实时邮件撰写任务中的表现如何?
  • RQ2延迟和吞吐量的要求是什么,如何在 Gmail 规模下满足?
  • RQ3个性化是否在不妥协隐私和效率的情况下提升建议质量?
  • RQ4多语言模型在维持生产可行性的同时,是否能提供具有竞争力的质量?

主要发现

模型参数数量训练时间(h)测试对数困惑度ExactMatch 总体
LSTM-2-1024 (no context)77.7M723.3966.99%
LSTM-2-2048171.9M1383.1368.31%
Transformer-768-204884.3M2023.0866.94%
Transformer-1536-8192310.2M3872.9067.73%
  • 上下文特征相较于无上下文基线提升了语言模型的困惑度。
  • 变换器(Transformer)在相似容量下提供更好的困惑度,但延迟惩罚使 LM-A 更适合生产部署。对于 LM-A,Transformer-1536-8192 在测试困惑度为 2.90、总体 ExactMatch 为 67.73% ,但延迟较高。
  • 生产部署优先考虑延迟;在 CPU/TPU 上的 LM-A 结合 Cloud TPU 加速可显著提升吞吐量并降低相对延迟。
  • 带线性插值的个性化 n-gram 模型与全局模型结合,在生产环境中在 ExactMatch 和 CTR 上有相对增益(约 6% CTR、约 10% ExactMatch)。
  • 多语言 wordpiece 模型效果良好;在西班牙语、法语、意大利语、葡萄牙语中,单语言词模型在 ExactMatch 方面往往优于多语言变体,葡萄牙语的情况除外,多语言有帮助;总体部署采用多语言 wordpiece,并设有语言特定阈值。
  • 该系统在端到端延迟目标下实现了实际的实时推断,并可扩展到亿级用户。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。