QUICK REVIEW

[논문 리뷰] Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling

Jiahui Yu, Wei Han|arXiv (Cornell University)|2020. 10. 12.

Speech Recognition and Synthesis참고 문헌 62인용 수 24

한 줄 요약

이 논문은 공유 가중치를 사용하여 스트리밍 및 전체 문맥 자동 음성 인식 모두를 위한 단일 모델을 훈련하는 통합형 엔드 투 엔드 프레임워크인 Dual-mode ASR를 제안한다. 전체 문맥 모드에서 스트리밍 추론을 향상시키기 위해 현장 내 지식 정복을 공동으로 훈련함으로써, 이 방법은 LibriSpeech 및 MultiDomain 데이터셋에서 낮은 지연 시간과 향상된 정확도로 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Streaming automatic speech recognition (ASR) aims to emit each hypothesized word as quickly and accurately as possible, while full-context ASR waits for the completion of a full speech utterance before emitting completed hypotheses. In this work, we propose a unified framework, Dual-mode ASR, to train a single end-to-end ASR model with shared weights for both streaming and full-context speech recognition. We show that the latency and accuracy of streaming ASR significantly benefit from weight sharing and joint training of full-context ASR, especially with inplace knowledge distillation during the training. The Dual-mode ASR framework can be applied to recent state-of-the-art convolution-based and transformer-based ASR networks. We present extensive experiments with two state-of-the-art ASR networks, ContextNet and Conformer, on two datasets, a widely used public dataset LibriSpeech and a large-scale dataset MultiDomain. Experiments and ablation studies demonstrate that Dual-mode ASR not only simplifies the workflow of training and deploying streaming and full-context ASR models, but also significantly improves both emission latency and recognition accuracy of streaming ASR. With Dual-mode ASR, we achieve new state-of-the-art streaming ASR results on both LibriSpeech and MultiDomain in terms of accuracy and latency.

연구 동기 및 목표

스트리밍 및 전체 문맥 ASR를 공유 파rameter를 가진 단일 모델로 통합하여 구현을 단순화하고 모델 크기를 줄이기.
공동 최적화를 통해 훈련 중 전체 문맥 모델링을 활용하여 스트리밍 ASR 성능을 향상시키기.
추가 파rameter 없이 전체 문맥 모드에서의 현장 내 지식 정복을 사용하여 스트리밍 ASR의 지연 시간과 정확도를 향상시키기.
다양한 아키텍처(ContextNet, Conformer)와 데이터셋(LibriSpeech, MultiDomain)에서 이 프레임워크의 효과성을 입증하기.

제안 방법

동일한 가중치를 사용하여 스트리밍(자기회귀적, 미래 컨텍스트 없음) 및 전체 문맥(양방향, 전체 입력 컨텍스트) 추론을 지원하는 Dual-mode 인코더를 제안한다.
모드에 따라 동작을 전환하는 인과 컨볼루션, 풀링 및 자기주의 어텐션 메커니즘을 포함한 이중 모드 레이어를 설계한다.
동일한 모델 내에서 스트리밍 및 전체 문맥 모드를 공동으로 훈련하여 기울기와 파ram터를 공유한다.
현장 내 지식 정복을 도입하여 전체 문맥 모드가 스트리밍 모드를 훈련 중에 일관된 토큰 확률 예측을 유도하도록 지도한다.
표준 훈련 레시피를 사용: Adam 최적화기, SpecAugment, 그리고 양 모델에 대해 웜업이 포함된 트랜스포머 학습률 스케줄링.
양 모드에 동일한 훈련 목표와 디코딩 전략을 적용하여 엔드 투 엔드 일치성과 성능 일관성을 확보한다.

실험 결과

연구 질문

RQ1공유 가중치를 사용하여 단일 엔드 투 엔드 ASR 모델이 스트리밍 및 전체 문맥 추론을 효과적으로 수행할 수 있는가?
RQ2전체 문맥 모델링을 함께 훈련함으로써 스트리밍 ASR의 지연 시간과 정확도가 향상되는가?
RQ3전체 문맥 모드에서 스트리밍 모드로의 현장 내 지식 정복이 스트리밍 성능 향상에 얼마나 효과적인가?
RQ4가중치 공유와 공동 훈련이 스트리밍 ASR의 표현 학습에 어떤 영향을 미치는가?

주요 결과

Dual-mode ASR는 LibriSpeech TestOther에서 스트리밍 WER 8.5%를 달성하여 LSTM 기반 트랜스듀서 및 트랜스포머-트랜스듀서 기반 베이스라인을 모두 초월한다.
현장 내 정복을 사용할 경우, 공동 훈련에서 정복 없이 사용할 경우와 비교해 latency@50를 120ms에서 40ms로, latency@90를 310ms에서 160ms로 감소시킨다.
정복을 함께 훈련한 경우, 정복 없이 훈련한 경우와 비교해 스트리밍 WER가 1.7%p 향상되었으며, 50번째 백분위수에서 지연 시간이 80ms 감소했다.
정복 없이도 가중치 공유와 공동 훈련이 별도 훈련보다 스트리밍 ASR 성능을 향상시켜, 공유 표현 학습이 모델 품질을 향상시킨다는 것을 시사한다.
제거 실험을 통해 현장 내 지식 정복이 낮은 지연 시간과 높은 정확도를 달성하는 데 핵심적임을 확인하였으며, 별도 훈련에 정복을 적용한 경우보다 우수한 성능을 기록했다.
이 프레임워크는 정확도와 지연 시간 측면에서 LibriSpeech 및 MultiDomain 데이터셋 모두에서 새로운 최신 기술 수준(SOTA) 성능을 달성하여 아키텍처 및 데이터셋 간 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.