[論文レビュー] Gmail Smart Compose: Real-Time Assisted Writing
Smart Compose は、Gmail で大規模ニューラル言語モデルを用いたリアルタイムの文脈依存の作成提案を提供します。製品展開、パーソナライズ、多言語サポート、プライバシー配慮を含み、 billions of users に対応。品質と厳格なレイテンシ制約のバランス。
In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.
研究の動機と目的
- 大規模に繰り返し入力を減らすことで、より速く、より正確なメール文案作成を動機づけ、可能にする。
- 実運用のニューラル言語モデルシステムにおける遅延、スケール、パーソナライズ、フェアネス、プライバシーの課題に対処する。
- 本番運用に耐える性能を達成するためのモデルアーキテクチャと提供戦略を評価する。
- 多様なユーザーの体験を向上させるためのパーソナライズと多言語拡張を探る。
提案手法
- 大規模な英語メールコーパスを用いて、RNN/LSTM および Transformer を訓練・比較する。
- 埋め込みとコンテキストエンコーダを通じて、件名、前のメール、日付/時刻、ロケールなどの文脈特徴を組み込む。
- 予測を言語モデルまたは注意機構付き seq2seq として定式化し、ビームサーチで top-n 提案を行う。
- オフライン指標とオンライン性能を関連付けるために、Log Perplexity および ExactMatch@N で評価する。
- ストリーミング RPC サーバー、レイテンシ目標(90パーセンタイル < 60 ms)、TPU ベースの加速を備えた本番システムを展開する。
実験結果
リサーチクエスチョン
- RQ1異なるモデルアーキテクチャ(LM-A、LM-B、Seq2Seq)は、リアルタイムのメール作成タスクでどのように性能を発揮するか?
- RQ2レイテンシとスループットの要件は何で、Gmail の規模でどのように満たすことができるか?
- RQ3パーソナライズは、プライバシーと効率性を損なうことなく提案品質を向上させるか?
- RQ4多言語モデルは、言語間で本番運用性を維持しつつ競争力のある品質を提供できるか?
主な発見
| Model | #Params | Training Time (h) | Test Log Perplexity | ExactMatch Overall |
|---|---|---|---|---|
| LSTM-2-1024 (no context) | 77.7M | 72 | 3.39 | 66.99% |
| LSTM-2-2048 | 171.9M | 138 | 3.13 | 68.31% |
| Transformer-768-2048 | 84.3M | 202 | 3.08 | 66.94% |
| Transformer-1536-8192 | 310.2M | 387 | 2.90 | 67.73% |
- 文脈特徴は、文脈なしベースラインと比較して言語モデルの困惑度を改善する。
- Transformer モデルは同容量でより良い困惑度を提供するが、レイテンシのペナルティにより LM-A の方が本番運用に適している。LM-A では Transformer-1536-8192 が 2.90 のテスト困惑度と 67.73% の Overall ExactMatch を達成するが、遅延は高い。
- 本番展開はレイテンシを重視する;CPU/TPU 上の LM-A は、Cloud TPU 加速とともにスループットと相対的な遅延を大幅に改善する。
- パーソナライズされた n-gram モデルをグローバルモデルへ線形内挿することで、ExactMatch と CTR の相対的向上を生む(本番で約 CTR6%、ExactMatch約10%)。
- 多言語 wordpiece モデルは有効である;スペイン語、フランス語、イタリア語、ポルトガル語では、モノ言語の単語モデルが多言語版を上回る傾向があるが、ポルトガル語は多言語が有効。全体としては言語特有の閾値を用いた多言語 wordpiece を採用した。
- 本システムはエンドツーエンドのレイテンシ目標を満たす実用的なリアルタイム推論を実現し、数十億ユーザーにスケールする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。