QUICK REVIEW

[논문 리뷰] Streaming End-to-end Speech Recognition For Mobile Devices

Yanzhang He, Tara N. Sainath|arXiv (Cornell University)|2018. 11. 15.

Speech Recognition and Synthesis참고 문헌 25인용 수 23

한 줄 요약

이 논문은 RNN-T 모델 기반의 스트리밍 엔드 투 엔드 음성 인식 시스템을 제시하며, 정량화, 워드피ece 토크나이제이션, 그리고 수치 정규화를 위한 합성 TTS 생성 훈련 데이터를 통해 모바일 배포에 최적화되어 있다. 이 시스템은 기존의 CTC 기반 베이스라인을 능가하며 20퍼센트 이상의 상대적 WER 향상을 달성했고, Google Pixel 스마트폰에서 실시간 대비 51퍼센트의 지연으로 작동한다.

ABSTRACT

End-to-end (E2E) models, which directly predict output character sequences given input speech, are good candidates for on-device speech recognition. E2E models, however, present numerous challenges: In order to be truly useful, such models must decode speech utterances in a streaming fashion, in real time; they must be robust to the long tail of use cases; they must be able to leverage user-specific context (e.g., contact lists); and above all, they must be extremely accurate. In this work, we describe our efforts at building an E2E speech recognizer using a recurrent neural network transducer. In experimental evaluations, we find that the proposed approach can outperform a conventional CTC-based model in terms of both latency and accuracy in a number of evaluation categories.

연구 동기 및 목표

모바일 기기에서의 현장 배포에 적합한 저지연, 고정확도 엔드 투 엔드 음성 인식기 개발
기존의 CTC 기반 모델이 스트리밍, 맥락적, 장시간 음성 인식에서 겪는 한계 극복
모바일 하드웨어 제약 조건 하에서 고정확도를 유지하면서 최소한의 지연으로 실시간 추론 구현
TTS를 활용한 합성 데이터 증강을 통해 수치 및 OOV(외부 어휘) 시퀀스의 인식 향상
사용자별 맥락(예: 연락처, 앱)을 얕은 융합을 통해 통합하면서 모델 효율성 손상 최소화

제안 방법

스트리밍 및 원시 오디오 특징에서의 순차적 자동 회귀 예측을 위한 핵심 아키텍처로 순환 신경망 트랜스듀서(RNN-T) 사용
희귀어 및 OOV 어휘의 모델링 향상을 위해 워드피ece 토크나이제이션 적용
RNN-T 훈련의 안정성과 가속을 위해 레이어 정규화 및 TPU 기반 대용량 배치 훈련 사용
모델 크기 감소와 추론 가속을 위해 비대칭 및 대칭 정량화 적용으로 4배 압축 및 실시간 요인 64퍼센트 감소 달성
사용자별 맥락(예: 연락처 목록)을 경량 LSTM 언어모델을 활용해 재평가하는 얕은 융합 메커니즘 도입
수치 시퀀스를 위한 합성 TTS 생성 음성 문장을 활용해 사전 훈련하여, 미리 보지 않은 수치에 대한 정규화 정확도 향상

실험 결과

연구 질문

RQ1엔드 투 엔드 RNN-T 모델이 고정확도를 유지하면서도 모바일 하드웨어에서 실시간 또는 그 이상의 추론 속도를 달성할 수 있는가?
RQ2워드피iece 토크나이제이션은 그래프음 수준의 모델링 대비 WER와 희귀어에 대한 강건성 측면에서 어떻게 비교되는가?
RQ3합성 TTS 데이터가 새로운 맥락에서 수치 시퀀스의 인식에 얼마나 기여하는가?
RQ4사용자별 맥락과의 얕은 융합이 기존 하이브리드 시스템의 성능을 따라하거나 뛰어넘을 수 있는가?
RQ5생산용 모바일 배포 환경에서 정량화가 정확도와 추론 속도에 미치는 영향은 어떠한가?

주요 결과

워드피iece와 레이어 정규화를 적용한 RNN-T 모델은 음성 검색에서 기존 CTC 모델 대비 상대적으로 27퍼센트, 작문에서 25퍼센트의 WER 감소 달성
최종 정량화된 RNN-T 모델(대칭 정량화)은 RT90가 0.51로 실시간의 51퍼센트 지연을 보이며, 이는 실시간의 2배 빠른 속도로 작동함
수치 시퀀스를 위한 TTS 생성 합성 데이터 사용으로 Num-TTS 세트의 WER가 22.8퍼센트에서 4.3퍼센트로 감소하여 상대적 개선률 81퍼센트 달성
사용자별 맥락과의 얕은 융합은 연락처 및 앱 인식에서 최대 5.8퍼센트 상대적 WER 향상으로, 기존 CTC 기반 모델과 동등하거나 이를 초월함
정량화로 모델 크기가 4배 감소했고, 비대칭 정량화 조건에서도 WER가 0.1퍼센트 이내의 절대적 감소만을 보임
최종 시스템은 기존 CTC 기반 베이스라인 대비 음성 검색 및 작문 작업에서 모두 20퍼센트 이상의 상대적 WER 향상 달성

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.