QUICK REVIEW

[논문 리뷰] Personalized Speech recognition on mobile devices

Ian McGraw, Rohit Prabhavalkar|arXiv (Cornell University)|2016. 03. 10.

Speech Recognition and Synthesis참고 문헌 14인용 수 22

한 줄 요약

이 논문은 양자화된 LSTM 음성 모델과 SVD 기반 압축, 실시간 개인화를 위한 언어 모델 편향 기법을 사용하여 모바일 기기용 컴act하고 실시간 스피치 인식 시스템을 제시한다. 이 시스템은 넥서스 5에서 실시간보다 7배 빠르게 작동하면서도 사전 입력 작업에서 13.5%의 WER를 달성하며 총 20.3MB의 메모리 점유율을 유지하여 네트워크 의존 없이 정확하고 저지연의 온디바이스 인식을 가능하게 한다.

ABSTRACT

We describe a large vocabulary speech recognition system that is accurate, has low latency, and yet has a small enough memory and computational footprint to run faster than real-time on a Nexus 5 Android smartphone. We employ a quantized Long Short-Term Memory (LSTM) acoustic model trained with connectionist temporal classification (CTC) to directly predict phoneme targets, and further reduce its memory footprint using an SVD-based compression scheme. Additionally, we minimize our memory footprint by using a single language model for both dictation and voice command domains, constructed using Bayesian interpolation. Finally, in order to properly handle device-specific information, such as proper names and other context-dependent information, we inject vocabulary items into the decoder graph and bias the language model on-the-fly. Our system achieves 13.5% word error rate on an open-ended dictation task, running with a median speed that is seven times faster than real-time.

연구 동기 및 목표

클라우드 연결에 의존하지 않고도 전체적으로 모바일 기기에서 작동하는 저지연, 고정확도 스피치 인식 시스템을 개발하는 것.
딥 러닝 기반 스피치 인식 모델의 메모리 및 계산 부하를 줄여 모바일 환경의 제약에 맞추는 것.
연락처 이름이나 기기 전용 명령어와 같은 개인화된 콘텐츠를 온디바이스에서 정확하게 인식할 수 있도록 하는 것.
베이지안 보간을 통해 하나의 공통 언어 모델을 사용하여 개방형 사전 입력과 음성 명령 작업을 모두 지원하는 것.
모델 압축, 효율적 디코딩, 실시간 개인화 기법을 통해 지연과 메모리 사용량을 최소화하는 것.

제안 방법

연결주의 시간 분류(CTC)를 사용하여 문맥 독립적 음소를 예측하는 양자화된 장기 단기 기억(LSTM) 음성 모델을 훈련시켜 모델 크기와 계산 비용을 감소시킨다.
단일 값 분해(SVD)를 적용하여 LSTM 모델을 추가로 압축하여 정확도 손실이 크지 않은 상태에서 크기를 10배 감소시킨다.
베이지안 보간을 사용하여 하나의 공통 언어 모델을 구성하여 사전 입력과 음성 명령 도메인을 최소한의 메모리 오버헤드로 효과적으로 지원한다.
실시간 어휘 주입과 언어 모델 편향 기법을 사용하여 사용자 고유의 용어(예: 연락처 이름)를 인식 과정에 동적으로 통합한다.
두 단계의 디코딩 전략을 적용한다: 작고 효율적인 언어 모델을 사용하는 빠른 1단계 디코더, 이후 LOUDS 압축 기반으로 큰 압축된 언어 모델을 사용한 실시간 재평가.
사용자 연락처를 위한 발음 생성을 위해 경량의 LSTM 기반 문자음소 변환(G2P) 모델을 훈련시켜 기존의 큰 FST 기반 시스템을 대체한다.

실험 결과

연구 질문

RQ1양자화되고 SVD로 압축된 LSTM 음성 모델이 모바일 기기에서 실시간보다 더 빠르게 작동하면서도 높은 정확도를 달성할 수 있는가?
RQ2하나의 언어 모델이 최소한의 메모리 오버헤드로 개방형 사전 입력과 음성 명령 작업을 효과적으로 지원할 수 있는가?
RQ3실시간 언어 모델 편향과 어휘 주입 기법이 연락처 이름과 같은 개인화된 용어의 인식 정확도를 어느 정도 향상시킬 수 있는가?
RQ4실시간으로 개인 연락처 발음을 주입할 경우 지연과 메모리 사용량에 어떤 영향을 미치는가?
RQ5SVD와 양자화와 같은 모델 압축 기법을 RNN에 효과적으로 적용할 수 있으며, DNN 기반 접근법과 비교해 볼 때 어떤가?

주요 결과

시스템은 개방형 사전 입력 작업에서 단어 오류율(WER)이 13.5%로, 유사한 자원 제약 조건 하에서 이전 연구보다 크게 향상되었다.
시스템은 넥서스 5에서 중앙값으로 실시간보다 7배 빠른 속도로 작동하여 인터랙티브 사용에 적합한 저지연 성능을 보였다.
어휘 주입을 통해 2개의 연락처를 디코더에 통합하면 WER가 13.7%에서 9.0%로 감소하며, 실시간 편향 기법을 추가로 적용하면 연락처 이름의 WER가 12.8%로 추가로 감소했다.
50개의 연락처 발음을 실시간으로 주입한 경우에도 중앙값 실시간 요소는 0.17로 약간만 증가하여 지연 영향이 미미했다.
전체 시스템의 점유 메모리는 20.3MB이며, 음성 모델은 3.0MB로 압축되었고 G2P 모델은 단지 497KB에 불과하여 효율적인 온디바이스 배포가 가능했다.
언어 모델 공유를 위해 베이지안 보간을 사용한 결과, 단순 선형 보간보다 우수한 성능을 보였으며, 하나의 컴팩트한 모델로 다중 도메인 지원이 효과적으로 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.