QUICK REVIEW

[论文解读] Gmail Smart Compose: Real-Time Assisted Writing

Mia Xu Chen, Benjamin N. Lee|arXiv (Cornell University)|May 17, 2019

Topic Modeling参考文献 46被引用 45

一句话总结

Smart Compose 在 Gmail 中利用大规模神经语言模型提供实时、上下文感知的写作建议，已实现生产部署、个性化、多语言支持与隐私考量。它在为数十亿用户设定的严格延迟约束下，在质量与速度之间取得平衡。

ABSTRACT

In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.

研究动机与目标

通过在大规模场景下减少重复输入，推动并实现更快、更准确的邮件起草。
解决生产神经语言模型系统中的延迟、规模、个性化、公平性与隐私等挑战。
评估模型架构和服务策略，以实现生产就绪的性能。
探索个性化和多语言扩展，以提升跨多样用户的用户体验。

提出的方法

使用大型英文电子邮件语料库训练并比较神经语言模型（RNN/LSTM 与 Transformer）。
通过嵌入和上下文编码器引入上下文特征（主题、前一封邮件、日期/时间、区域设定 locale）。
将预测形式化为语言建模或带注意力的 seq2seq；对前 N 个建议使用束搜索。
使用对数困惑度和 ExactMatch@N 进行评估，以将离线指标与在线性能相关联。
部署生产系统，包含流式 RPC 服务器、延迟目标（第 90 百分位 < 60 ms）以及基于 TPU 的加速。

实验结果

研究问题

RQ1不同的模型架构（LM-A、LM-B、Seq2Seq）在实时邮件撰写任务中的表现如何？
RQ2延迟和吞吐量的要求是什么，如何在 Gmail 规模下满足？
RQ3个性化是否在不妥协隐私和效率的情况下提升建议质量？
RQ4多语言模型在维持生产可行性的同时，是否能提供具有竞争力的质量？

主要发现

模型	参数数量	训练时间（h）	测试对数困惑度	ExactMatch 总体
LSTM-2-1024 (no context)	77.7M	72	3.39	66.99%
LSTM-2-2048	171.9M	138	3.13	68.31%
Transformer-768-2048	84.3M	202	3.08	66.94%
Transformer-1536-8192	310.2M	387	2.90	67.73%

上下文特征相较于无上下文基线提升了语言模型的困惑度。
变换器（Transformer）在相似容量下提供更好的困惑度，但延迟惩罚使 LM-A 更适合生产部署。对于 LM-A，Transformer-1536-8192 在测试困惑度为 2.90、总体 ExactMatch 为 67.73% ，但延迟较高。
生产部署优先考虑延迟；在 CPU/TPU 上的 LM-A 结合 Cloud TPU 加速可显著提升吞吐量并降低相对延迟。
带线性插值的个性化 n-gram 模型与全局模型结合，在生产环境中在 ExactMatch 和 CTR 上有相对增益（约 6% CTR、约 10% ExactMatch）。
多语言 wordpiece 模型效果良好；在西班牙语、法语、意大利语、葡萄牙语中，单语言词模型在 ExactMatch 方面往往优于多语言变体，葡萄牙语的情况除外，多语言有帮助；总体部署采用多语言 wordpiece，并设有语言特定阈值。
该系统在端到端延迟目标下实现了实际的实时推断，并可扩展到亿级用户。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。