Skip to main content
QUICK REVIEW

[논문 리뷰] Attention-Based End-to-End Speech Recognition in Mandarin.

Changhao Shan, Junbo Zhang|arXiv (Cornell University)|2017. 07. 22.
Speech Recognition and Synthesis참고 문헌 18인용 수 6
한 줄 요약

이 논문은 한자어 체계와 큰 어휘량으로 인해 어려움을 겪는 중국어를 위한 주목적 기반 엔드 투 엔드 음성 인식 모델을 제안한다. 문자 임베딩과 L2 정규화, 가중치 노이즈, 프레임 스킵 등의 학습 최적화 기법을 사용하여 문제를 해결한다. MiTV 음성 검색 데이터셋에서 삼중어 언어모델을 사용할 경우, 문자 오류율(CER)은 2.81%이며 문장 오류율(SER)은 5.77%를 기록한다.

ABSTRACT

Recently, there has been a growing interest in end-to-end speech recognition that directly transcribes speech to text without any predefined alignments. In this paper, we explore the use of attention-based encoder-decoder model for Mandarin speech recognition on a voice search task. Previous attempts have shown that applying attention-based encoder-decoder to Mandarin speech recognition was quite difficult due to the logographic orthography of Mandarin, the large vocabulary and the conditional dependency of the attention model. In this paper, we use character embedding to deal with the large vocabulary. Several tricks are used for effective model training, including L2 regularization, Gaussian weight noise and frame skipping. We compare two attention mechanisms and use attention smoothing to cover long context in the attention model. Taken together, these tricks allow us to finally achieve a character error rate (CER) of 3.58% and a sentence error rate (SER) of 7.43% on the MiTV voice search dataset. While together with a trigram language model, CER and SER reach 2.81% and 5.77%, respectively.

연구 동기 및 목표

  • 한자어 체계와 큰 어휘량으로 인해 엔드 투 엔드 주목적 기반 모델을 적용하는 데 어려움이 있는 중국어에 대해 이를 해결한다.
  • 학습 중 주목적 메커니즘의 조건부 의존성으로 인한 과제를 극복한다.
  • 효과적인 학습 기법을 통해 모델의 강인성과 수렴성을 향상시킨다.
  • 문자 수준의 출력을 사용하여 중국어 음성 검색 작업에서 최신 성능을 달성한다.

제안 방법

  • 중국어의 한자어 글쓰기 체계에서 유래한 큰 어휘량을 다루기 위해 문자 임베딩을 사용한다.
  • 학습 안정성 향상과 과적합 방지를 위해 L2 정규화와 가우시안 가중치 노이즈를 적용한다.
  • 계산 부담을 줄이고 학습 효율을 향상시키기 위해 프레임 스킵을 구현한다.
  • 두 가지 주목적 메커니즘을 비교하고 주목적 스무딩을 통해 장거리 맥락 모델링을 향상시킨다.
  • 더 나은 인식 정확도를 위해 삼중어 언어모델을 통합한다.
  • 직접 음성 특징을 문자 시퀀스로 매핑하기 위해 주목적을 갖춘 인코더-디코더 아키텍처를 사용한다.

실험 결과

연구 질문

  • RQ1복잡한 글쓰기 체계와 큰 어휘량으로 인해 중국어 음성 인식에 효과적으로 작용할 수 있는 엔드 투 엔드 주목적 기반 모델은 가능한가?
  • RQ2가중치 노이즈와 프레임 스킵과 같은 학습 기법이 모델 수렴성과 성능에 어떤 영향을 미치는가?
  • RQ3장거리 의존성을 모델링하는 데 있어 다양한 주목적 메커니즘의 상대적 효과는 어떠한가?
  • RQ4주목적 스무딩이 주목적 메커니즘의 맥락 모델링에 얼마나 기여하는가?
  • RQ5언어모델을 통합할 경우 중국어 엔드 투 엔드 ASR에서 오류율은 얼마나 감소하는가?

주요 결과

  • 제안된 모델은 언어모델 없이 MiTV 음성 검색 데이터셋에서 문자 오류율(CER)을 3.58%로 기록한다.
  • 삼중어 언어모델을 적용한 결과 CER는 2.81%로 감소하여 언어모델링의 효과를 입증한다.
  • 언어모델이 없을 경우 문장 오류율(SER)은 7.43%였고, 삼중어 언어모델을 적용하면 5.77%로 감소한다.
  • 문자 임베딩, L2 정규화, 프레임 스킵의 조합은 학습 안정성과 모델 성능 향상에 크게 기여한다.
  • 주목적 스무딩은 주목적 메커니즘에서 장거리 맥락적 의존성을 더 잘 모델링할 수 있도록 한다.
  • 구조적 및 학습 혁신을 통해 중국어의 한자어 체계와 큰 어휘량이 초래하는 과제를 성공적으로 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.