[논문 리뷰] Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss
이 논문은 RNN-T 아키텍처의 RNN 인코더를 자기주도 어텐션 기반의 Transformer 인코더로 대체하여 더 빠른 훈련과 경쟁 가능한 정확도를 달성하는 스트리밍 엔드 투 엔드 음성 인식 모델인 Transformer Transducer를 소개한다. 제한된 왼쪽 컨텍스트(10프레임)와 중간 수준의 오른쪽 컨텍스트(2프레임)를 사용함으로써 LibriSpeech test-clean에서 최신 기록인 2.4%의 WER를 달성하며, 지연 시간과 성능의 균형을 이룬다.
In this paper we present an end-to-end speech recognition model with Transformer encoders that can be used in a streaming speech recognition system. Transformer computation blocks based on self-attention are used to encode both audio and label sequences independently. The activations from both audio and label encoders are combined with a feed-forward layer to compute a probability distribution over the label space for every combination of acoustic frame position and label history. This is similar to the Recurrent Neural Network Transducer (RNN-T) model, which uses RNNs for information encoding instead of Transformer encoders. The model is trained with the RNN-T loss well-suited to streaming decoding. We present results on the LibriSpeech dataset showing that limiting the left context for self-attention in the Transformer layers makes decoding computationally tractable for streaming, with only a slight degradation in accuracy. We also show that the full attention version of our model beats the-state-of-the art accuracy on the LibriSpeech benchmarks. Our results also show that we can bridge the gap between full attention and limited attention versions of our model by attending to a limited number of future frames.
연구 동기 및 목표
- 실시간 추론이 가능한 스트리밍 엔드 투 엔드 음성 인식 모델을 개발하여 고정확도를 유지한다.
- RNN-T 프레임워크 내의 RNN 기반 인코더를 Transformer 인코더로 대체하여 병렬 처리가 가능한 자기주도 어텐션과 더 빠른 훈련을 활용한다.
- 자기주도 어텐션 컨텍스트를 고정된 과거 및 향후 프레임 수로 제한하여 스트리밍에 적합한 계산적 타당성을 확보한다.
- Transformer 기반 스트리밍 ASR 시스템에서 인식 정확도와 추론 지연 시간 간의 상호 상충 관계를 조사한다.
- 자신주도 어텐션을 음성 및 레이블 인코더 양쪽에 적용할 경우, 스트리밍에 적합하도록 적절히 제약을 둔 상태에서 최신 기록 성능을 달성할 수 있는지 확인한다.
제안 방법
- 다중 헤드 자기주도 어텐션을 사용하여 음성 및 레이블 시퀀스를 별도로 처리하는 Transformer 인코더로 RNN-T 모델의 RNN 인코더를 대체한다.
- 음성 인코더의 자기주도 어텐션에 인과적 마스킹을 적용하여 오직 과거 및 현재 프레임만을 고려하도록 제한함으로써 프레임당 일정 시간 복잡도의 추론을 가능하게 한다.
- 지연 시간과 성능의 균형을 맞추기 위해 고정된 왼쪽 컨텍스트(예: 10프레임)와 선택적 오른쪽 컨텍스트(예: 2프레임)를 사용한다.
- 음성 프레임과 레이블 시퀀스 간의 가능한 모든 정렬에 대해 최적화하는 표준 RNN-T 손실을 사용해 모델을 훈련한다.
- 각 타임스텝에서 다음 레이블을 예측하기 위해 음성 및 레이블 인코더 출력을 조합하기 위해 피드포워드 레이어를 적용한다.
- 효율성을 위해 모든 Transformer 레이어에 공통된 마스크를 사용하지만, 향후 확장으로서 각 레이어별로 다른 마스크를 사용하는 것도 고려된다.

실험 결과
연구 질문
- RQ1자기주도 어텐션 컨텍스트를 제한함으로써 스트리밍 RNN-T 기반 ASR 모델에서 Transformer 인코더를 효과적으로 사용할 수 있는가?
- RQ2음성 및 레이블 인코더의 자기주도 어텐션 컨텍스트를 제한할 경우 인식 정확도와 추론 속도에 어떤 영향을 미치는가?
- RQ3Transformer 기반 모델이 스트리밍 추론에 적합한 상태에서 LibriSpeech에서 최신 기록 성능을 달성할 수 있는가?
- RQ4전체 어텐션 Transformer Transducer와 제한된 컨텍스트를 갖는 스트리밍 버전 간의 성능 격차는 얼마이며, 이를 메울 수 있는가?
- RQ5어떤 수의 과거 및 향후 프레임이 어텐션에 사용되는가에 따라 지연 시간과 정확도 간의 상호 상충 관계는 어떻게 변화하는가?
주요 결과
- 전체 어텐션 Transformer Transducer는 LibriSpeech test-clean에서 2.4%의 새로운 최신 기록 WER를 기록하였으며, test-other에서는 5.6%를 기록하여 기존 모델을 초월한다.
- 음성 인코더에 10프레임의 왼쪽 컨텍스트를 사용하면 추론 시간 복잡도가 프레임당 일정해지며, 이는 실용적인 스트리밍을 가능하게 하고, 전체 어텐션 모델 대비 test-clean에서 WER가 1.2% 뿐 상승한다.
- 각 레이어에 2프레임의 오른쪽 컨텍스트를 추가하면 test-clean에서 WER가 4.2%에서 3.6%로, test-other에서는 11.3%에서 10.0%로 개선되어 전체 어텐션 모델과의 격차를 크게 좁힌다.
- 레이블 인코더를 이전 3개의 레이블 상태로 제한해도 20개 상태를 사용한 경우와 유사한 성능를 기록함으로써, 레이블 모델링에 대해 최소한의 왼쪽 컨텍스트로도 충분함을 보여준다.
- 자기주도 어텐션 연산의 병렬 처리 특성 덕분에 LSTM 기반 RNN-T 모델보다 훨씬 더 빠른 훈련 속도를 기록한다.
- 제한된 오른쪽 컨텍스트를 갖는 스트리밍 모델(10프레임 왼쪽 컨텍스트)과 전체 어텐션 모델 간의 성능 격차는 향후 몇 프레임의 미래 프레임을 고려함으로써 메울 수 있으며, 6프레임의 오른쪽 컨텍스트로 WER 격차를 16% 감소시킬 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.