QUICK REVIEW

[논문 리뷰] Transformers with convolutional context for ASR

Abdelrahman Mohamed, Dmytro Okhonko|arXiv (Cornell University)|2019. 04. 26.

Natural Language Processing Techniques참고 문헌 25인용 수 152

한 줄 요약

논문은 ASR에서 트랜스포머의 사인웨이브 위치 임베딩을 합성곱으로 학습된 입력 표현으로 바꿔 안정적인 학습과 Librispeech에서 외부 언어 모델 없이 향상된 WER를 가능하게 한다.

ABSTRACT

The recent success of transformer networks for neural machine translation and other NLP tasks has led to a surge in research work trying to apply it for speech recognition. Recent efforts studied key research questions around ways of combining positional embedding with speech features, and stability of optimization for large scale learning of transformer networks. In this paper, we propose replacing the sinusoidal positional embedding for transformers with convolutionally learned input representations. These contextual representations provide subsequent transformer blocks with relative positional information needed for discovering long-range relationships between local concepts. The proposed system has favorable optimization characteristics where our reported results are produced with fixed learning rate of 1.0 and no warmup steps. The proposed model achieves a competitive 4.7% and 12.9% WER on the Librispeech ``test clean'' and ``test other'' subsets when no extra LM text is provided.

연구 동기 및 목표

트랜스포머 기반 ASR에서 음성 특징에 위치 정보를 도입하는 방법 조사.
트랜스포머 블록 이전의 입력 처리로 합성곱 컨텍스트를 제안하여 상대 위치 신호를 제공.
합성곱 컨텍스트를 갖는 딥 인코더의 최적화 안정성과 ASR 성능을 검토.
LM 개선과의 직교성을 평가하기 위해 외부 언어 모델 데이터 없이 Librispeech에서 평가.

제안 방법

사인웨이브 위치 임베딩을 2-D convNet 인코더와 1-D convNet 디코더로 교체하여 맥락 입력 표현을 학습한다.
인코더에 2-D 합성곱 블록 두 개를 사용하고 깊은 구조의 다중 인코더 트랜스포머 블록을 사용한다.
디코더 임베딩에 1-D 합성곱 블록을 적용하고 독립적인 디코더 트랜스포머 블록과 어텐션 레이어를 사용한다.
학습률 워밍업을 피하고, 고정 학습률 1.0과 그래디언트 클리핑으로 AdaDelta를 사용한다.
Librispeech 1000h에서 5k unigram 서브워드 유닛으로 엔드투엔드 학습; 마지막 80 에폭 동안의 평균 최근 30 체크포인트를 보고한다.

실험 결과

연구 질문

RQ1합성곱 컨텍스트가 트랜스포머가 음성에서 장기 의존성을 모델링하기 위한 필요한 상대 위치 정보를 제공하는가?
RQ2디코더 컨텍스트 깊이와 인코더/디코더 깊이가 Librispeech 시나리오(dev/ test, clean/other)에서 WER에 어떤 영향을 미치는가?
RQ3학습된 합성곱 컨텍스트를 선호하여 사인파 위치 임베딩을 제거하는 것이 ASR 성능에 미치는 영향은?
RQ4외부 언어 모델 없이도 경쟁력 있는 WER를 달성할 수 있는가?

주요 결과

제안된 합성곱 컨텍스트가 여러 구성에서 사인웨이브 위치 임베딩보다 WER을 개선한다.
깊은 인코더(예: 16 인코더 블록)와 다중 계층 디코더 어텐션이 포함된 최적 구성이 추가 LM 데이터 없이 dev other 및 test other에서 각각 상대적 WER 감소 12% 및 16%를 달성한다.
디코더 컨텍스트 깊이와 더 넓은 인코더 깊이가 얕은 구성보다 더 나은 WER를 제공하며, 여러 합성곱 계층에 걸친 광범위한 컨텍스트가 유리하다.
외부 LM 텍스트를 사용하지 않을 때 Librispeech test clean에서 4.7, test other에서 12.9 WER를 달성하며, 이는 이전 결과와 비교된다.
AdaDelta와 고정 학습률 1.0을 사용하고 워밍업 없이도 안정적인 수렴과 강한 성능을 보인다.
이 접근법을 미래의 LM 기반 개선(OCD 등)과 결합하면 추가 이득을 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.