QUICK REVIEW

[논문 리뷰] RNN-T For Latency Controlled ASR With Improved Beam Search

Mahaveer Jain, Kjell Schubert|arXiv (Cornell University)|2019. 11. 05.

Speech Recognition and Synthesis참고 문헌 15인용 수 34

한 줄 요약

이 논문은 LC-BLSTM 인코더와 개선된 빔 서치를 통해 지연 제어가 가능한 RNN-T ASR을 제시하고, 디코딩 속도를 높이며, 더 높은 처리량과 낮은 rtf@40으로 혼합 베이스라인과 유사한 WER를 달성합니다.

ABSTRACT

Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic speech recognition (ASR) blend the individual components of a traditional hybrid ASR systems (acoustic model, language model, punctuation model, inverse text normalization) into one single model. This greatly simplifies training and inference and hence makes RNN-T a desirable choice for ASR systems. In this work, we investigate use of RNN-T in applications that require a tune-able latency budget during inference time. We also improved the decoding speed of the originally proposed RNN-T beam search algorithm. We evaluated our proposed system on English videos ASR dataset and show that neural RNN-T models can achieve comparable WER and better computational efficiency compared to a well tuned hybrid ASR baseline.

연구 동기 및 목표

지연 제어 가능한 제어 가능한 지연 제약을 가진 스트리밍 ASR를 위한 RNN-T 연구.
스트리밍 제약 하에서 품질 향상을 위해 LC-BLSTM를 RNN-T 인코더에 통합.
디코딩 속도와 효율성을 높이기 위해 RNN-T 빔 서치 개선.
실제 데이터에서 엔드 투 엔드 RNN-T를 잘 조정된 하이브리드 ASR 베이스라인과 비교.
추론 시 구성 가능한 디코딩 임계값을 통해 지연-처리량 트레이드오프를 시연합니다.

제안 방법

right context와 chunk-based overlap 처리를 통해 지연 제어를 가능하게 하는 Audio Encoder로 LC-BLSTM 사용.
상태 빔(state_beam)과 expand_beam 하이퍼파라미터를 확장하여 가설을 효율적으로 가지치기하는 RNN-T용 개선된 빔 서치 채택.
외부 언어 모델 없이 엔드 투 엔드로 모델 학습.
INT8 양자화를 통한 추론 속도 향상.
DT를 구성 가능한 디코딩 임계값으로 설정하여 English 비디오 데이터셋에서 지연과 WER를 연구.
외부 WFST LM을 사용하는 하이브리드 ASR 베이스라인과 비교합니다.

실험 결과

연구 질문

RQ1LC-BLSTM을 갖춘 RNN-T가 제어 가능한 지연으로 스트리밍 ASR를 달성하면서 경쟁력 있는 WER를 유지할 수 있을까?
RQ2제안된 빔 서치 개선(state_beam 및 expand_beam)이 정확도를 해치지 않으면서 처리량을 증가시키나?
RQ3디코딩 임계값(DT)을 조정하면 지연, 처리량, WER에 어떤 영향이 있는가?
RQ4비디오 데이터에서 엔드 투 엔드 RNN-T가 조정된 하이브리드 ASR에 비해 WER과 효율성에서 어떤 차이가 있는가?

주요 결과

expand_beam=2.3 및 state_beam=4.6에서 처리량이 53에서 65로 증가하고 rtf@40은 0.75에서 0.60으로 감소했습니다(WER에 미세한 영향 무시 가능).
LC-BLSTM를 갖춘 RNN-T가 vid-clean에서 하이브리드 베이스라인과 비교해 WER는 유사하게 유지되면서 처리량은 더 높게(63 대 55), vid-noisy에서 65 대 55로 증가했습니다.
RNN-T 모델(~65 MB)은 하이브리드 베이스라인보다 10배 이상 작아 외부 LM/ITN 구성 요소를 제거해 학습과 배포를 단순화합니다.
DT-제어 추론은 지연과 처리량을 WER과 교환합니다; 더 큰 DT는 WER를 개선하지만 지연을 줄이고, 더 작은 DT는 처리량을 감소시키고 WER를 증가시킵니다(vid-noisy 및 vid-clean의 예시).
단방향 LSTM 인코더만으로는 LC-BLSTM에 비해 WER가 악화되지만 스트리밍 가능성을 유지하며 DT를 통한 지연 제어가 실행 가능한 전략임을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.