QUICK REVIEW

[논문 리뷰] Gmail Smart Compose: Real-Time Assisted Writing

Mia Xu Chen, Benjamin N. Lee|arXiv (Cornell University)|2019. 05. 17.

Topic Modeling참고 문헌 46인용 수 45

한 줄 요약

Smart Compose는 대규모 신경 언어 모델을 사용하여 Gmail에서 실시간으로 맥락을 인지한 작문 제안을 제공하며, 생산 배포, 개인화, 다국어 지원 및 프라이버시 고려사항을 포함합니다. 이는 수십억 사용자에 대한 엄격한 대기 시간 제약과 품질의 균형을 맞춥니다.

ABSTRACT

In this paper, we present Smart Compose, a novel system for generating interactive, real-time suggestions in Gmail that assists users in writing mails by reducing repetitive typing. In the design and deployment of such a large-scale and complicated system, we faced several challenges including model selection, performance evaluation, serving and other practical issues. At the core of Smart Compose is a large-scale neural language model. We leveraged state-of-the-art machine learning techniques for language model training which enabled high-quality suggestion prediction, and constructed novel serving infrastructure for high-throughput and real-time inference. Experimental results show the effectiveness of our proposed system design and deployment approach. This system is currently being served in Gmail.

연구 동기 및 목표

대형으로 반복 입력을 줄여 더 빠르고 정확한 이메일 초안을 가능하게 하려는 동기 부여 및 촉진.
생산 신경망 언어 모델 시스템에서의 지연, 규모, 개인화, 공정성 및 프라이버시 문제를 다루기.
생산 준비 성능을 달성하기 위한 모델 아키텍처 및 서빙 전략 평가.
다양한 사용자를 아우르는 사용자 경험 개선을 위한 개인화 및 다국어 확장 탐구.

제안 방법

대형 영어 이메일 코퍼스를 사용하여 RNN/LSTM 및 Transformer 기반 신경망 언어 모델 학습 및 비교.
임베딩 및 컨텍스트 인코더를 통한 맥락 특징(제목, 이전 이메일, 날짜/시간, 로케일) 통합.
예측을 언어 모델링 또는 주의(attention) 기반 seq2seq로 공식화; 상위 n 제안을 위한 빔 서치 사용.
오프라인 지표와 온라인 성능을 상관시키기 위해 로그 퍼플렉시티 및 ExactMatch@N으로 평가.
스트리밍 RPC 서버, 대기 시간 목표(상위 90%ile < 60ms), TPU 기반 가속을 갖춘 생산 시스템 배포.

실험 결과

연구 질문

RQ1다른 모델 아키텍처(LM-A, LM-B, Seq2Seq)가 실시간 이메일 작성 작업에 대해 어떻게 성능을 보이는가?
RQ2지연 시간과 처리량 요구사항은 무엇이며 Gmail 규모에서 이를 어떻게 충족할 수 있는가?
RQ3개인화가 프라이버시와 효율성을 해치지 않으면서 제안 품질을 향상시키는가?
RQ4다국어 모델이 생산 가능성을 유지하면서 품질을 경쟁력 있게 제공할 수 있는가?

주요 결과

모델	#파라미터	학습 시간 (h)	테스트 로그 퍼플렉시티	전반적인 ExactMatch
LSTM-2-1024 (no context)	77.7M	72	3.39	66.99%
LSTM-2-2048	171.9M	138	3.13	68.31%
Transformer-768-2048	84.3M	202	3.08	66.94%
Transformer-1536-8192	310.2M	387	2.90	67.73%

맥락 기능이 맥락 없는 기준선 대비 언어 모델 perplexity를 개선한다.
Transformer 모델은 유사한 용량에서 더 나은 perplexity를 제공하지만 지연 페널티로 인해 LM-A가 생산에 더 적합하다. LM-A의 경우 Transformer-1536-8192는 테스트 perplexity 2.90, Overall ExactMatch 67.73%를 달성하지만 지연이 더 높다.
생산 배치는 지연에 우선순위를 두며 CPU/TPU에서의 LM-A는 Cloud TPU 가속기를 사용할 때 더 나은 처리량과 더 낮은 상대 지연을 보여준다.
개인화된 N그램 모델과 글로벌 모델의 선형 보간은 ExactMatch와 CTR에서 상대적 이득을 제공한다(생산에서 약 6% CTR, 약 10% ExactMatch).
다국어 단어피스 모델은 효과적이며, 스페인어, 프랑스어, 이탈리아어, 포르투갈어에서 단일 언어 모델이 다국어 변형보다 ExactMatch에서 우세한 경향이 있다(포르투갈어는 다국어가 도움이 될 때도 있음); 전반적 배치는 다국어 단어피스로 언어별 임계값을 사용했다.
시스템은 엔드-투-엔드 지연 목표를 충족하는 실시간 추론을 달성하고 수십억 사용자 규모로 확장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.