[논문 리뷰] Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition
Transformer Transducer 아키텍처를 변수 오른쪽 컨텍스트 계층으로 지원하는 단일 모델에서 스트리밍(낮은 지연) 및 비스트리밍(높은 정확도) 음성 인식을 가능하게 하며, Y-model 병렬 디코딩 및 제약된 정렬 학습으로 지연과 정확도의 균형을 맞춘다.
In this paper we present a Transformer-Transducer model architecture and a training technique to unify streaming and non-streaming speech recognition models into one model. The model is composed of a stack of transformer layers for audio encoding with no lookahead or right context and an additional stack of transformer layers on top trained with variable right context. In inference time, the context length for the variable context layers can be changed to trade off the latency and the accuracy of the model. We also show that we can run this model in a Y-model architecture with the top layers running in parallel in low latency and high latency modes. This allows us to have streaming speech recognition results with limited latency and delayed speech recognition results with large improvements in accuracy (20% relative improvement for voice-search task). We show that with limited right context (1-2 seconds of audio) and small additional latency (50-100 milliseconds) at the end of decoding, we can achieve similar accuracy with models using unlimited audio right context. We also present optimizations for audio and label encoders to speed up the inference in streaming and non-streaming speech decoding.
연구 동기 및 목표
- 단일 엔드 투 엔드 모델이 스트리밍과 비스트리밍 ASR 태스크를 모두 처리하도록 동기를 부여한다.
- Transformer 계층에서 가변 오른쪽 컨텍스트를 허용하는 학습 기법을 개발한다.
- 효율적인 병렬 L/R-Latten 디코딩을 위한 Y-model 아키텍처를 도입한다.
- 스트리밍 및 비스트리밍 배치를 위한 추론 최적화를 제공한다.
- 지연-정확도 트레이드오프를 평가하고, 지연을 줄이기 위한 제약된 정렬로 전체 WER 감소를 시도한다.
제안 방법
- Transformer 계층과 라벨 인코더를 기반으로 한 오디오 인코더를 갖춘 Transformer Transducer를 RNN-T 손실과 함께 공동으로 학습한다.
- 레이어별로 오른쪽 컨텍스트 길이가 샘플링되도록 가변 오른쪽 컨텍스트 학습을 도입하여 유연한 추론을 가능하게 한다.
- 최후의 계층들이 변수 컨텍스트로 학습되는 Y-model 아키텍처를 제시하여 병렬 저지연 및 고지연 디코딩을 가능하게 한다.
- 참조 전체 주의 모델에 기반한 지연이 큰 정렬 경로를 마스크하기 위한 RNN-T 손실 기반 제약 정렬 학습을 적용한다.
- 스트리밍 대 비스트리밍 인코더 구현 및 속도 증가를 위한 라벨 인코더 캐싱 등 추론 최적화를 논의한다.
- 제한된 오른쪽 컨텍스트를 사용하는 디코딩(예: 2.4초)으로 지연과 정확도를 최적화하기 위한 디코딩 구성과 평가를 수행한다.
실험 결과
연구 질문
- RQ1단일 엔드 투 엔드 Transformer 기반 모델이 별도의 모델 없이 스트리밍(저지연) 및 비스트리밍(고정확도) ASR 모드를 모두 지원할 수 있는가?
- RQ2가변 오른쪽 컨텍스트 학습이 재학습 최소화로 저지연 및 고지연 디코딩 모드 간 효과적인 전환을 가능하게 하는가?
- RQ3스트리밍에 제한된 오른쪽 컨텍스트를 사용할 때의 지연-정확도 트레이드오프와 최종 결과에 대한 전체 오른쪽 컨텍스트의 차이는 무엇인가?
- RQ4제약 정렬 학습이 전체 WER를 손실 없이 단어 정렬 지연을 줄일 수 있는가?
- RQ5Transformer Transducer의 스트리밍 및 비스트리밍 디코딩을 가장 효과적으로 가속화하는 추론 최적화은 무엇인가?
주요 결과
- 단일 Transformer Transducer 모델이 저지연 스트리밍 디코딩과 고정확도 비스트리밍 디코딩 모드를 모두 지원할 수 있다.
- Y-model 아키텍처는 서로 다른 오른쪽 컨텍스트 예측으로 병렬 디코딩을 가능하게 하여 제한된 탐색(2.4초)으로 거의 전체 컨텍스트 정확도 달성.
- 제한된 오른쪽 컨텍스트(2.4초)로도 무제한 컨텍스트 정확도에 근접하면서 종료 지연을 작게 유지할 수 있다.
- 제약 정렬 학습은 단어 정렬 지연을 크게 감소시키며(예: Y-model2 저지연 구성에서 약 767ms에서 약 119ms로 감소) 모드에 따라 WER에 혼합 효과를 보인다.
- 라벨 인코더 설계(소형 컨텍스트 트랜스포머 또는 빅ram 임베딩)와 캐싱은 디코딩 속도를 크게 높이고 WER에 미치는 영향은 최소화한다.
- 추론 최적화(배치 스텝, 쿼리 분할, 스트리밍 대 비스트리밍 인코딩)는 TPU 및 CPU에서 상당한 속도 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.