Skip to main content
QUICK REVIEW

[논문 리뷰] Streaming End-to-end Speech Recognition For Mobile Devices

Yanzhang He, Tara N. Sainath|arXiv (Cornell University)|2018. 11. 15.
Speech Recognition and Synthesis참고 문헌 25인용 수 23
한 줄 요약

이 논문은 RNN-T 모델 기반의 스트리밍 엔드 투 엔드 음성 인식 시스템을 제시하며, 정량화, 워드피ece 토크나이제이션, 그리고 수치 정규화를 위한 합성 TTS 생성 훈련 데이터를 통해 모바일 배포에 최적화되어 있다. 이 시스템은 기존의 CTC 기반 베이스라인을 능가하며 20퍼센트 이상의 상대적 WER 향상을 달성했고, Google Pixel 스마트폰에서 실시간 대비 51퍼센트의 지연으로 작동한다.

ABSTRACT

End-to-end (E2E) models, which directly predict output character sequences given input speech, are good candidates for on-device speech recognition. E2E models, however, present numerous challenges: In order to be truly useful, such models must decode speech utterances in a streaming fashion, in real time; they must be robust to the long tail of use cases; they must be able to leverage user-specific context (e.g., contact lists); and above all, they must be extremely accurate. In this work, we describe our efforts at building an E2E speech recognizer using a recurrent neural network transducer. In experimental evaluations, we find that the proposed approach can outperform a conventional CTC-based model in terms of both latency and accuracy in a number of evaluation categories.

연구 동기 및 목표

  • 모바일 기기에서의 현장 배포에 적합한 저지연, 고정확도 엔드 투 엔드 음성 인식기 개발
  • 기존의 CTC 기반 모델이 스트리밍, 맥락적, 장시간 음성 인식에서 겪는 한계 극복
  • 모바일 하드웨어 제약 조건 하에서 고정확도를 유지하면서 최소한의 지연으로 실시간 추론 구현
  • TTS를 활용한 합성 데이터 증강을 통해 수치 및 OOV(외부 어휘) 시퀀스의 인식 향상
  • 사용자별 맥락(예: 연락처, 앱)을 얕은 융합을 통해 통합하면서 모델 효율성 손상 최소화

제안 방법

  • 스트리밍 및 원시 오디오 특징에서의 순차적 자동 회귀 예측을 위한 핵심 아키텍처로 순환 신경망 트랜스듀서(RNN-T) 사용
  • 희귀어 및 OOV 어휘의 모델링 향상을 위해 워드피ece 토크나이제이션 적용
  • RNN-T 훈련의 안정성과 가속을 위해 레이어 정규화 및 TPU 기반 대용량 배치 훈련 사용
  • 모델 크기 감소와 추론 가속을 위해 비대칭 및 대칭 정량화 적용으로 4배 압축 및 실시간 요인 64퍼센트 감소 달성
  • 사용자별 맥락(예: 연락처 목록)을 경량 LSTM 언어모델을 활용해 재평가하는 얕은 융합 메커니즘 도입
  • 수치 시퀀스를 위한 합성 TTS 생성 음성 문장을 활용해 사전 훈련하여, 미리 보지 않은 수치에 대한 정규화 정확도 향상

실험 결과

연구 질문

  • RQ1엔드 투 엔드 RNN-T 모델이 고정확도를 유지하면서도 모바일 하드웨어에서 실시간 또는 그 이상의 추론 속도를 달성할 수 있는가?
  • RQ2워드피iece 토크나이제이션은 그래프음 수준의 모델링 대비 WER와 희귀어에 대한 강건성 측면에서 어떻게 비교되는가?
  • RQ3합성 TTS 데이터가 새로운 맥락에서 수치 시퀀스의 인식에 얼마나 기여하는가?
  • RQ4사용자별 맥락과의 얕은 융합이 기존 하이브리드 시스템의 성능을 따라하거나 뛰어넘을 수 있는가?
  • RQ5생산용 모바일 배포 환경에서 정량화가 정확도와 추론 속도에 미치는 영향은 어떠한가?

주요 결과

  • 워드피iece와 레이어 정규화를 적용한 RNN-T 모델은 음성 검색에서 기존 CTC 모델 대비 상대적으로 27퍼센트, 작문에서 25퍼센트의 WER 감소 달성
  • 최종 정량화된 RNN-T 모델(대칭 정량화)은 RT90가 0.51로 실시간의 51퍼센트 지연을 보이며, 이는 실시간의 2배 빠른 속도로 작동함
  • 수치 시퀀스를 위한 TTS 생성 합성 데이터 사용으로 Num-TTS 세트의 WER가 22.8퍼센트에서 4.3퍼센트로 감소하여 상대적 개선률 81퍼센트 달성
  • 사용자별 맥락과의 얕은 융합은 연락처 및 앱 인식에서 최대 5.8퍼센트 상대적 WER 향상으로, 기존 CTC 기반 모델과 동등하거나 이를 초월함
  • 정량화로 모델 크기가 4배 감소했고, 비대칭 정량화 조건에서도 WER가 0.1퍼센트 이내의 절대적 감소만을 보임
  • 최종 시스템은 기존 CTC 기반 베이스라인 대비 음성 검색 및 작문 작업에서 모두 20퍼센트 이상의 상대적 WER 향상 달성

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.