QUICK REVIEW

[논문 리뷰] Semantic Mask for Transformer based End-to-End Speech Recognition

Chengyi Wang, Yu Wu|arXiv (Cornell University)|2019. 12. 06.

Speech Recognition and Synthesis참고 문헌 22인용 수 24

한 줄 요약

이 논문은 Transformer 기반 엔드 투 엔드 음성 인식 모델을 위한 의미적 마스크 정규화 기법을 제안한다. 학습 중에 개별 출력 토큰(예: 단어 또는 워드피ece)에 해당하는 전체 음성 세그먼트를 마스킹하여 언어 모델링 능력과 일반화 성능을 향상시킨다. 이 방법은 SpecAugment와 결합하여 Librispeech 960h 및 TED-LIUM2에서 SOTA(WER) 성능을 달성하며, 기준 E2E 모델 대비 최대 10%의 상대적 개선을 이룬다.

ABSTRACT

Attention-based encoder-decoder model has achieved impressive results for both automatic speech recognition (ASR) and text-to-speech (TTS) tasks. This approach takes advantage of the memorization capacity of neural networks to learn the mapping from the input sequence to the output sequence from scratch, without the assumption of prior knowledge such as the alignments. However, this model is prone to overfitting, especially when the amount of training data is limited. Inspired by SpecAugment and BERT, in this paper, we propose a semantic mask based regularization for training such kind of end-to-end (E2E) model. The idea is to mask the input features corresponding to a particular output token, e.g., a word or a word-piece, in order to encourage the model to fill the token based on the contextual information. While this approach is applicable to the encoder-decoder framework with any type of neural network architecture, we study the transformer-based model for ASR in this work. We perform experiments on Librispeech 960h and TedLium2 data sets, and achieve the state-of-the-art performance on the test set in the scope of E2E models.

연구 동기 및 목표

주의 기반 엔드 투 엔드 ASR 모델의 제한된 언어 모델링 능력을 해결하기 위해, 특히 저자료 또는 노이즈가 많은 조건에서의 성능 향상.
외부 언어 모델에 의존하지 않고도 모델의 일반화 능력과 음향 왜곡에 대한 강건성을 향상시키기 위해.
BERT와 유사하게 음향 공간에서 문맥 기반 재구성에 기여하는, 체계적인 토큰 수준의 마스킹 전략을 개발하기 위해.
의미적 마스킹이 랜덤 마스킹(예: SpecAugment)보다 우월하며, Librispeech 및 TED-LIUM2와 같은 다양한 데이터셋에서 성능 향상을 이끌어내는지 확인하기 위해.

제안 방법

모든 발화에 대해 몬트리올 포지션 어라이어(Forced Aligner)를 사용하여 단어 수준의 시간 정보를 확보한다.
학습 중 15%의 토큰을 무작위로 선택하고, 해당 토큰에 대응하는 음성 세그먼트를 전체 발화의 평균 값으로 대체함으로써 마스킹을 수행한다.
마스킹은 토큰 수준에서 수행되며, 단어 또는 워드피ece에 해당하는 전체 특징 패치를 마스킹함으로써 랜덤한 시간/주파수 마스킹보다 더 체계적인 방식을 취한다.
강화된 정규화를 위해 기존의 SpecAugment 기법(시간 왜곡, 주파수 마스킹, 시간 마스킹)과 결합한다.
학습을 위해 자기주의 블록 이전에 더 깊은 CNN을 사용하고, CTC/주의 손실의 조합을 사용한다.
의미적 마스킹는 학습 및 추론 모두에서 적용되며, 모델은 맥락적 단서를 이용해 마스킹된 토큰을 재구성하도록 요구된다.

실험 결과

연구 질문

RQ1음향 공간에서 토큰 수준의 마스킹이 엔드 투 엔드 ASR 모델의 언어 모델링 능력을 향상시키는가?
RQ2의미적 마스킹는 랜덤 마스킹(예: SpecAugment)과 비교해 WER 감소 및 모델 일반화 능력 향상에 어떤 영향을 미치는가?
RQ3의미적 마스킹는 노이즈가 많거나 도메인 외 테스트 세트(예: Librispeech test-other 또는 TED-LIUM2)에서 더 큰 성능 향상을 제공하는가?
RQ4의미적 마스킹는 SpecAugment 및 기타 데이터 증강 기법과 효과적으로 조합될 수 있는가?
RQ5외부 언어 모델이 없는 조건에서 의미적 마스킹이 모델 성능 향상에 더 큰 기여를 하는가?

주요 결과

Librispeech 960h에서 의미적 마스킹를 적용한 모델은 test-clean WER 3.32%와 test-other WER 10.20%를 기록하여 기준 E2E 모델 대비 상대적 10% 향상된 성능을 보였다.
의미적 마스킹와 SpecAugment의 조합은 SpecAugment 단독 사용 대비 test-clean에서 WER 0.32 감소, test-other에서 0.25 감소를 기록했다.
TED-LIUM2에서 이 방법은 기준 모델 대비 상대적 4.5%의 WER 감소를 기록하여, 더 작은, 더 노이즈가 많은 데이터셋에서도 효과적임을 확인했다.
Librispeech test-clean에서 가장 높은 보고된 E2E ASR 시스템을 초월하여, E2E 전용 설정에서 SOTA 성능을 달성했다.
외부 언어 모델 융합이 없는 조건에서 의미적 마스킹를 사용한 모델 간 성능 격차가 더 커졌으며, 이는 의미적 마스킹가 내재된 언어 모델링 능력을 강화한다는 것을 확인했다.
제거 실험 결과, 시간 수준의 마스킹보다 단어 수준의 마스킹가 일관되게 우수했으며, 두 전략을 조합한 것이 가장 좋은 성능을 냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.