Skip to main content
QUICK REVIEW

[论文解读] Efficient Natural Language Response Suggestion for Smart Reply

Matthew Henderson, Rami Al‐Rfou|arXiv (Cornell University)|May 1, 2017
Topic Modeling参考文献 28被引用 220
一句话总结

论文提出一种使用 n-gram 嵌入和分层量化的快速前馈模型来对智能回复候选进行评分和排序,在质量上优于 Seq2Seq,同时计算成本和延迟大幅降低。

ABSTRACT

This paper presents a computationally efficient machine-learned method for natural language response suggestion. Feed-forward neural networks using n-gram embedding features encode messages into vectors which are optimized to give message-response pairs a high dot-product value. An optimized search finds response suggestions. The method is evaluated in a large-scale commercial e-mail application, Inbox by Gmail. Compared to a sequence-to-sequence approach, the new system achieves the same quality at a small fraction of the computational requirements and latency.

研究动机与目标

  • 降低真实世界邮件应用中智能回复响应建议的计算成本和延迟。
  • 探究用于建模输入与响应兼容性的前馈、非循环网络结构。
  • 实现从固定的大规模候选响应集合中快速、可扩展的检索。
  • 利用多种特征和偏置校正来提升回复质量。
  • 在生产环境的 Gmail 收件箱智能回复场景中展示端到端的改进。

提出的方法

  • 用通过求和 n-gram 嵌入形成的固定维特征来表示输入的邮箱和回复(n-gram 袋)。
  • 训练神经打分模型,为输入 x 与候选 y 指派 S(x,y),具有联合和点积架构。
  • 使用点积分解 S(x,y)=hx^T hy 以预计算响应向量并实现高效的 MIPS 风格搜索。
  • 在一个批次中用多负样本进行训练以近似 P(y|x) 并优化负对数似然目标(Eq. 5)。
  • 通过多损失架构融入多种邮件特征,以利用不同的输入信号改进评分。
  • 通过语言模型为响应提供偏置项 α log PLM(y) 来鼓励泛用性回复。
  • 采用分层量化(HQ)结合向量量化与乘积量化,并使用学习得到的旋转,以实现对响应的快速近似搜索。

实验结果

研究问题

  • RQ1具备 n-gram 嵌入的前馈非循环模型能否在回复建议质量上达到甚至超过 Seq2Seq?
  • RQ2在回复选择中的联合打分与点积打分架构之间的性能权衡是什么?
  • RQ3多个特征与负采样策略如何影响排序准确性?
  • RQ4分层量化在快速且高召回检索顶层回复方面的效果如何?
  • RQ5在生产智能回复系统中可实现的在线性能提升(转化率、延迟)有哪些?

主要发现

System/ExperimentExperimentConversion relative to Seq2SeqLatency relative to Seq2Seq
穷举搜索使用联合模型对所有响应进行评分500%
两步法先点积再联合打分67%10%
包含响应偏置添加语言模型偏置项88%10%
改进采样与多损失带有多损失的数据集改进104%10%
单步在增强的点积模型下移除第二步104%2%
分层量化使用 HQ 对响应进行快速搜索104%1%
  • 点积(嵌入基)模型在训练更高效的同时,精度接近或优于联合模型。
  • 在100个候选项的测试集上,P@1 对于联合模型为 49%,对点积模型分别为 48%(批次25)或 52%(批次50)。
  • 在线系统迭代显示延迟显著降低,转化率相当或提高:两步法在相对 Seq2Seq 的延迟降低 10% 的情况下实现 67% 转化;单步法在增强负样本和多损失特征下相对 Seq2Seq 实现 104% 转化并仅 2% 延迟;分层量化进一步将速度翻倍且不损失质量。
  • 通过语言模型为响应提供偏置可提升建议质量(表 3 第 3 行)。
  • 使用更大批次的负样本和多损失架构的训练在在线实验中优于基线 Seq2Seq(第 4 行)。
  • 最终单步系统使用点积打分与分层搜索,在计算量显著减少的同时实现相似或更好质量(第 5 行和第 6 行)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。