[논문 리뷰] RNN-T For Latency Controlled ASR With Improved Beam Search
이 논문은 LC-BLSTM 인코더와 개선된 빔 서치를 통해 지연 제어가 가능한 RNN-T ASR을 제시하고, 디코딩 속도를 높이며, 더 높은 처리량과 낮은 rtf@40으로 혼합 베이스라인과 유사한 WER를 달성합니다.
Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic speech recognition (ASR) blend the individual components of a traditional hybrid ASR systems (acoustic model, language model, punctuation model, inverse text normalization) into one single model. This greatly simplifies training and inference and hence makes RNN-T a desirable choice for ASR systems. In this work, we investigate use of RNN-T in applications that require a tune-able latency budget during inference time. We also improved the decoding speed of the originally proposed RNN-T beam search algorithm. We evaluated our proposed system on English videos ASR dataset and show that neural RNN-T models can achieve comparable WER and better computational efficiency compared to a well tuned hybrid ASR baseline.
연구 동기 및 목표
- 지연 제어 가능한 제어 가능한 지연 제약을 가진 스트리밍 ASR를 위한 RNN-T 연구.
- 스트리밍 제약 하에서 품질 향상을 위해 LC-BLSTM를 RNN-T 인코더에 통합.
- 디코딩 속도와 효율성을 높이기 위해 RNN-T 빔 서치 개선.
- 실제 데이터에서 엔드 투 엔드 RNN-T를 잘 조정된 하이브리드 ASR 베이스라인과 비교.
- 추론 시 구성 가능한 디코딩 임계값을 통해 지연-처리량 트레이드오프를 시연합니다.
제안 방법
- right context와 chunk-based overlap 처리를 통해 지연 제어를 가능하게 하는 Audio Encoder로 LC-BLSTM 사용.
- 상태 빔(state_beam)과 expand_beam 하이퍼파라미터를 확장하여 가설을 효율적으로 가지치기하는 RNN-T용 개선된 빔 서치 채택.
- 외부 언어 모델 없이 엔드 투 엔드로 모델 학습.
- INT8 양자화를 통한 추론 속도 향상.
- DT를 구성 가능한 디코딩 임계값으로 설정하여 English 비디오 데이터셋에서 지연과 WER를 연구.
- 외부 WFST LM을 사용하는 하이브리드 ASR 베이스라인과 비교합니다.
실험 결과
연구 질문
- RQ1LC-BLSTM을 갖춘 RNN-T가 제어 가능한 지연으로 스트리밍 ASR를 달성하면서 경쟁력 있는 WER를 유지할 수 있을까?
- RQ2제안된 빔 서치 개선(state_beam 및 expand_beam)이 정확도를 해치지 않으면서 처리량을 증가시키나?
- RQ3디코딩 임계값(DT)을 조정하면 지연, 처리량, WER에 어떤 영향이 있는가?
- RQ4비디오 데이터에서 엔드 투 엔드 RNN-T가 조정된 하이브리드 ASR에 비해 WER과 효율성에서 어떤 차이가 있는가?
주요 결과
- expand_beam=2.3 및 state_beam=4.6에서 처리량이 53에서 65로 증가하고 rtf@40은 0.75에서 0.60으로 감소했습니다(WER에 미세한 영향 무시 가능).
- LC-BLSTM를 갖춘 RNN-T가 vid-clean에서 하이브리드 베이스라인과 비교해 WER는 유사하게 유지되면서 처리량은 더 높게(63 대 55), vid-noisy에서 65 대 55로 증가했습니다.
- RNN-T 모델(~65 MB)은 하이브리드 베이스라인보다 10배 이상 작아 외부 LM/ITN 구성 요소를 제거해 학습과 배포를 단순화합니다.
- DT-제어 추론은 지연과 처리량을 WER과 교환합니다; 더 큰 DT는 WER를 개선하지만 지연을 줄이고, 더 작은 DT는 처리량을 감소시키고 WER를 증가시킵니다(vid-noisy 및 vid-clean의 예시).
- 단방향 LSTM 인코더만으로는 LC-BLSTM에 비해 WER가 악화되지만 스트리밍 가능성을 유지하며 DT를 통한 지연 제어가 실행 가능한 전략임을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.