QUICK REVIEW

[논문 리뷰] Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Ching-Feng Yeh, Jay Mahadeokar|arXiv (Cornell University)|2019. 10. 28.

Speech Recognition and Synthesis인용 수 76

한 줄 요약

Transformer 기반 신경 트랜스듀서를 도입하여 인과 합성곱과 잘린 자기 주의를 통해 스트리밍 엔드투엔드 ASR를 가능하게 하고, LibriSpeech에서 컴팩트한 모델로 경쟁력 있는 WER를 달성한다.

ABSTRACT

We explore options to use Transformer networks in neural transducer for end-to-end speech recognition. Transformer networks use self-attention for sequence modeling and comes with advantages in parallel computation and capturing contexts. We propose 1) using VGGNet with causal convolution to incorporate positional information and reduce frame rate for efficient inference 2) using truncated self-attention to enable streaming for Transformer and reduce computational complexity. All experiments are conducted on the public LibriSpeech corpus. The proposed Transformer-Transducer outperforms neural transducer with LSTM/BLSTM networks and achieved word error rates of 6.37 % on the test-clean set and 15.30 % on the test-other set, while remaining streamable, compact with 45.7M parameters for the entire system, and computationally efficient with complexity of O(T), where T is input sequence length.

연구 동기 및 목표

뉴럴 트랜스듀서 내에서 Transformer 아키텍처를 엔드 투 엔드 ASR에 활용하도록 동기를 부여한다.
맥락 모델링과 프레임 속도 감소를 위한 인과 합성곱이 적용된 VGGNet 스타일의 인코더 개선을 제안한다.
정확도를 유지하면서 스트리밍을 가능하게 하고 복잡성을 줄이는 절단된 자기 주의를 도입한다.
LibriSpeech에서 평가하여 LSTM/BLSTM 기준과 비교하고 정확도, 지연, 모델 크기 간의 트레이드오프를 평가한다.

제안 방법

신경 트랜스듀서(RNN-T) 프레임워크 내에서 Transformer 기반 인코더를 채택한다.
위치 정보를 주입하고 프레임 속도를 감소시키기 위해 VGGNet 스타일의 인과 합성곱을 도입한다(VGG-Transformer).
스트리밍 추론을 위한 컨텍스트를 제한하고 O(T) 복잡도를 달성하기 위해 절단된 자기 주의를 구현한다.
인코더 출력과 프리딕터 출력을 결합하는 조인러를 사용하여 심볼 예측을 위한 로짓을 생성한다.
비슷한 매개변수 예산 아래 여러 인코더/예측기 구성을 실험한다(LSTM 및 Transformer 변형).
SpecAugment와 SentencePiece 토크나이제이션을 사용하여 LibriSpeech에서 학습 및 평가한다.

실험 결과

연구 질문

RQ1신경 트랜스듀서 내의 Transformer 기반 인코더가 엔드투엔드 ASR에서 LSTM 기반 인코더와 동등하거나 그 이상으로 성능을 낼 수 있는가?
RQ2인과 합성곱이 맥락 모델링을 향상시키고 정확도를 해치지 않으면서 프레임 속도를 감소시키는가?
RQ3절단된 자기 주의가 LibriSpeech에서 경쟁력 있는 WER을 유지하면서 스트리밍 추론을 가능하게 하는가?
RQ4Transformer 인코더를 신경 트랜스듀서의 일부로 사용할 때 정확도, 지연, 모델 크기의 트레이드오프는 무엇인가?

주요 결과

동일 매개변수 예산 내에서 VGG-Transformer 인코더를 갖춘 Transformer-Transducer가 LSTM 기반 인코더에 비해 우수한 성능을 달성한다.
Transformer 인코더를 사용한 무제한 자기 주의(비스트리밍)가 BLSTM 기준선을 능가하지만 스트리밍이 아니다.
절단된 자기 주의(L,R 설정)로 모델이 스트리밍 가능해지며 복잡도를 O(T)로 줄이면서 경쟁력 있는 WER를 달성한다.
최적의 절단 주의 구성(L=32, R=4)은 무제한 주의 케이스에 근접한 WER를 제공하고 관리 가능한 지연으로 스트리밍을 가능하게 한다.
구성 전반에 걸쳐 제안된 모델은 45.7M 매개변수 시스템으로 LibriSpeech에서 test-clean 6.37% 및 test-other 15.30% WER를 달성한다.
이 접근법은 기기 내 ASR에 대해 정확도–지연–크기의 균형이 우수함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.