QUICK REVIEW

[논문 리뷰] Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

Qian Zhang, Lu Han|arXiv (Cornell University)|2020. 02. 07.

Speech Recognition and Synthesis참고 문헌 24인용 수 27

한 줄 요약

이 논문은 RNN-T 아키텍처의 RNN 인코더를 자기주도 어텐션 기반의 Transformer 인코더로 대체하여 더 빠른 훈련과 경쟁 가능한 정확도를 달성하는 스트리밍 엔드 투 엔드 음성 인식 모델인 Transformer Transducer를 소개한다. 제한된 왼쪽 컨텍스트(10프레임)와 중간 수준의 오른쪽 컨텍스트(2프레임)를 사용함으로써 LibriSpeech test-clean에서 최신 기록인 2.4%의 WER를 달성하며, 지연 시간과 성능의 균형을 이룬다.

ABSTRACT

In this paper we present an end-to-end speech recognition model with Transformer encoders that can be used in a streaming speech recognition system. Transformer computation blocks based on self-attention are used to encode both audio and label sequences independently. The activations from both audio and label encoders are combined with a feed-forward layer to compute a probability distribution over the label space for every combination of acoustic frame position and label history. This is similar to the Recurrent Neural Network Transducer (RNN-T) model, which uses RNNs for information encoding instead of Transformer encoders. The model is trained with the RNN-T loss well-suited to streaming decoding. We present results on the LibriSpeech dataset showing that limiting the left context for self-attention in the Transformer layers makes decoding computationally tractable for streaming, with only a slight degradation in accuracy. We also show that the full attention version of our model beats the-state-of-the art accuracy on the LibriSpeech benchmarks. Our results also show that we can bridge the gap between full attention and limited attention versions of our model by attending to a limited number of future frames.

연구 동기 및 목표

실시간 추론이 가능한 스트리밍 엔드 투 엔드 음성 인식 모델을 개발하여 고정확도를 유지한다.
RNN-T 프레임워크 내의 RNN 기반 인코더를 Transformer 인코더로 대체하여 병렬 처리가 가능한 자기주도 어텐션과 더 빠른 훈련을 활용한다.
자기주도 어텐션 컨텍스트를 고정된 과거 및 향후 프레임 수로 제한하여 스트리밍에 적합한 계산적 타당성을 확보한다.
Transformer 기반 스트리밍 ASR 시스템에서 인식 정확도와 추론 지연 시간 간의 상호 상충 관계를 조사한다.
자신주도 어텐션을 음성 및 레이블 인코더 양쪽에 적용할 경우, 스트리밍에 적합하도록 적절히 제약을 둔 상태에서 최신 기록 성능을 달성할 수 있는지 확인한다.

제안 방법

다중 헤드 자기주도 어텐션을 사용하여 음성 및 레이블 시퀀스를 별도로 처리하는 Transformer 인코더로 RNN-T 모델의 RNN 인코더를 대체한다.
음성 인코더의 자기주도 어텐션에 인과적 마스킹을 적용하여 오직 과거 및 현재 프레임만을 고려하도록 제한함으로써 프레임당 일정 시간 복잡도의 추론을 가능하게 한다.
지연 시간과 성능의 균형을 맞추기 위해 고정된 왼쪽 컨텍스트(예: 10프레임)와 선택적 오른쪽 컨텍스트(예: 2프레임)를 사용한다.
음성 프레임과 레이블 시퀀스 간의 가능한 모든 정렬에 대해 최적화하는 표준 RNN-T 손실을 사용해 모델을 훈련한다.
각 타임스텝에서 다음 레이블을 예측하기 위해 음성 및 레이블 인코더 출력을 조합하기 위해 피드포워드 레이어를 적용한다.
효율성을 위해 모든 Transformer 레이어에 공통된 마스크를 사용하지만, 향후 확장으로서 각 레이어별로 다른 마스크를 사용하는 것도 고려된다.

Fig. 1 : RNN/Transformer Transducer architecture.

실험 결과

연구 질문

RQ1자기주도 어텐션 컨텍스트를 제한함으로써 스트리밍 RNN-T 기반 ASR 모델에서 Transformer 인코더를 효과적으로 사용할 수 있는가?
RQ2음성 및 레이블 인코더의 자기주도 어텐션 컨텍스트를 제한할 경우 인식 정확도와 추론 속도에 어떤 영향을 미치는가?
RQ3Transformer 기반 모델이 스트리밍 추론에 적합한 상태에서 LibriSpeech에서 최신 기록 성능을 달성할 수 있는가?
RQ4전체 어텐션 Transformer Transducer와 제한된 컨텍스트를 갖는 스트리밍 버전 간의 성능 격차는 얼마이며, 이를 메울 수 있는가?
RQ5어떤 수의 과거 및 향후 프레임이 어텐션에 사용되는가에 따라 지연 시간과 정확도 간의 상호 상충 관계는 어떻게 변화하는가?

주요 결과

전체 어텐션 Transformer Transducer는 LibriSpeech test-clean에서 2.4%의 새로운 최신 기록 WER를 기록하였으며, test-other에서는 5.6%를 기록하여 기존 모델을 초월한다.
음성 인코더에 10프레임의 왼쪽 컨텍스트를 사용하면 추론 시간 복잡도가 프레임당 일정해지며, 이는 실용적인 스트리밍을 가능하게 하고, 전체 어텐션 모델 대비 test-clean에서 WER가 1.2% 뿐 상승한다.
각 레이어에 2프레임의 오른쪽 컨텍스트를 추가하면 test-clean에서 WER가 4.2%에서 3.6%로, test-other에서는 11.3%에서 10.0%로 개선되어 전체 어텐션 모델과의 격차를 크게 좁힌다.
레이블 인코더를 이전 3개의 레이블 상태로 제한해도 20개 상태를 사용한 경우와 유사한 성능를 기록함으로써, 레이블 모델링에 대해 최소한의 왼쪽 컨텍스트로도 충분함을 보여준다.
자기주도 어텐션 연산의 병렬 처리 특성 덕분에 LSTM 기반 RNN-T 모델보다 훨씬 더 빠른 훈련 속도를 기록한다.
제한된 오른쪽 컨텍스트를 갖는 스트리밍 모델(10프레임 왼쪽 컨텍스트)과 전체 어텐션 모델 간의 성능 격차는 향후 몇 프레임의 미래 프레임을 고려함으로써 메울 수 있으며, 6프레임의 오른쪽 컨텍스트로 WER 격차를 16% 감소시킬 수 있다.

Fig. 2 : Transformer encoder architecture.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.