[논문 리뷰] Gmail Smart Compose: Real-Time Assisted Writing
Smart Compose는 대규모 신경 언어 모델을 사용하여 Gmail에서 실시간으로 맥락을 인지한 작문 제안을 제공하며, 생산 배포, 개인화, 다국어 지원 및 프라이버시 고려사항을 포함합니다. 이는 수십억 사용자에 대한 엄격한 대기 시간 제약과 품질의 균형을 맞춥니다.
In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.
연구 동기 및 목표
- 대형으로 반복 입력을 줄여 더 빠르고 정확한 이메일 초안을 가능하게 하려는 동기 부여 및 촉진.
- 생산 신경망 언어 모델 시스템에서의 지연, 규모, 개인화, 공정성 및 프라이버시 문제를 다루기.
- 생산 준비 성능을 달성하기 위한 모델 아키텍처 및 서빙 전략 평가.
- 다양한 사용자를 아우르는 사용자 경험 개선을 위한 개인화 및 다국어 확장 탐구.
제안 방법
- 대형 영어 이메일 코퍼스를 사용하여 RNN/LSTM 및 Transformer 기반 신경망 언어 모델 학습 및 비교.
- 임베딩 및 컨텍스트 인코더를 통한 맥락 특징(제목, 이전 이메일, 날짜/시간, 로케일) 통합.
- 예측을 언어 모델링 또는 주의(attention) 기반 seq2seq로 공식화; 상위 n 제안을 위한 빔 서치 사용.
- 오프라인 지표와 온라인 성능을 상관시키기 위해 로그 퍼플렉시티 및 ExactMatch@N으로 평가.
- 스트리밍 RPC 서버, 대기 시간 목표(상위 90%ile < 60ms), TPU 기반 가속을 갖춘 생산 시스템 배포.
실험 결과
연구 질문
- RQ1다른 모델 아키텍처(LM-A, LM-B, Seq2Seq)가 실시간 이메일 작성 작업에 대해 어떻게 성능을 보이는가?
- RQ2지연 시간과 처리량 요구사항은 무엇이며 Gmail 규모에서 이를 어떻게 충족할 수 있는가?
- RQ3개인화가 프라이버시와 효율성을 해치지 않으면서 제안 품질을 향상시키는가?
- RQ4다국어 모델이 생산 가능성을 유지하면서 품질을 경쟁력 있게 제공할 수 있는가?
주요 결과
| 모델 | #파라미터 | 학습 시간 (h) | 테스트 로그 퍼플렉시티 | 전반적인 ExactMatch |
|---|---|---|---|---|
| LSTM-2-1024 (no context) | 77.7M | 72 | 3.39 | 66.99% |
| LSTM-2-2048 | 171.9M | 138 | 3.13 | 68.31% |
| Transformer-768-2048 | 84.3M | 202 | 3.08 | 66.94% |
| Transformer-1536-8192 | 310.2M | 387 | 2.90 | 67.73% |
- 맥락 기능이 맥락 없는 기준선 대비 언어 모델 perplexity를 개선한다.
- Transformer 모델은 유사한 용량에서 더 나은 perplexity를 제공하지만 지연 페널티로 인해 LM-A가 생산에 더 적합하다. LM-A의 경우 Transformer-1536-8192는 테스트 perplexity 2.90, Overall ExactMatch 67.73%를 달성하지만 지연이 더 높다.
- 생산 배치는 지연에 우선순위를 두며 CPU/TPU에서의 LM-A는 Cloud TPU 가속기를 사용할 때 더 나은 처리량과 더 낮은 상대 지연을 보여준다.
- 개인화된 N그램 모델과 글로벌 모델의 선형 보간은 ExactMatch와 CTR에서 상대적 이득을 제공한다(생산에서 약 6% CTR, 약 10% ExactMatch).
- 다국어 단어피스 모델은 효과적이며, 스페인어, 프랑스어, 이탈리아어, 포르투갈어에서 단일 언어 모델이 다국어 변형보다 ExactMatch에서 우세한 경향이 있다(포르투갈어는 다국어가 도움이 될 때도 있음); 전반적 배치는 다국어 단어피스로 언어별 임계값을 사용했다.
- 시스템은 엔드-투-엔드 지연 목표를 충족하는 실시간 추론을 달성하고 수십억 사용자 규모로 확장된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.