Skip to main content
QUICK REVIEW

[논문 리뷰] Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM

Takaaki Hori, Shinji Watanabe|arXiv (Cornell University)|2017. 06. 08.
Speech Recognition and Synthesis참고 문헌 26인용 수 21
한 줄 요약

이 논문은 깊이 있는 VGG 기반의 CNN 인코더와 외부 RNN 언어모델(RNN-LM)을 갖춘 공동 CTC-attention 엔드 투 엔드 ASR 모델을 제안하며, 일본어 및 중국어 음성 인식에서 최신 기술 수준의 성능을 달성한다. 훈련 및 비트 스캐닝 디코딩 중에 CTC와 어텐션을 함께 사용하고(재평가 또는 단일 통과 방법을 통해), 별도로 훈련된 RNN-LM을 통합함으로써, 이전 시스템 대비 문자 오류율(CER)을 5–10% 감소시키며, 언어 자원이 없는 상황에서도 전통적인 하이브리드 ASR 시스템을 능가한다.

ABSTRACT

We present a state-of-the-art end-to-end Automatic Speech Recognition (ASR) model. We learn to listen and write characters with a joint Connectionist Temporal Classification (CTC) and attention-based encoder-decoder network. The encoder is a deep Convolutional Neural Network (CNN) based on the VGG network. The CTC network sits on top of the encoder and is jointly trained with the attention-based decoder. During the beam search process, we combine the CTC predictions, the attention-based decoder predictions and a separately trained LSTM language model. We achieve a 5-10\% error reduction compared to prior systems on spontaneous Japanese and Chinese speech, and our end-to-end model beats out traditional hybrid ASR systems.

연구 동기 및 목표

  • 발음 사전과 언어모델과 같은 복잡한 모듈성 컴ponent에 의존하지 않고 엔드 투 엔드 ASR를 단순화하기 위해.
  • 훈련 및 디코딩 중에 CTC와 어텐션 목표를 공동으로 훈련시켜 정확도를 향상시키기 위해.
  • 깊이 있는 VGG 스타일의 CNN 인코더를 사용해 청각 표현 학습을 향상시키기 위해.
  • 언어 전처리 없이도 개선된 언어 모델링을 위한 문자 수준의 RNN-LM 통합을 위해.
  • 엔드 투 엔드 모델이 저자원 및 즉흥적인 음성 작업에서 전통적인 하이브리드 ASR 시스템을 능가할 수 있음을 입증하기 위해.

제안 방법

  • 모델은 계층적 청각 특징을 추출하기 위해 4개의 합성곱층과 2개의 맥스 풀링층을 갖춘 VGG 아키텍처 기반의 깊이 있는 CNN 인코더를 사용한다.
  • 공동 CTC-attention 프레임워크는 인코더를 CTC 및 어텐션 목표로 동시에 훈련시켜 정렬을 정규화하고 단조성을 향상시킨다.
  • 추론 중 비트 스캐닝은 재평가 또는 단일 통과 디코딩을 통해 CTC 예측, 어텐션 기반 디코더 출력, RNN-LM 점수를 조합한다.
  • 외부 RNN-LM는 ASR에 사용된 동일한 텍스트 데이터로 훈련되며, 별도 또는 주 모델과 함께 사용할 수 있다.
  • 모델은 Chainer 딥러닝 프레임워크를 사용하여 다중 과제 학습(MTL)과 속도 왜곡을 통한 데이터 증강을 통해 훈련된다.
  • 공동 CTC-attention 디코딩은 CTC와 어텐션 확률의 가중 조합을 사용하여 정확도와 강인성을 향상시킨다.

실험 결과

연구 질문

  • RQ1공동 CTC-attention 디코딩이 CTC나 어텐션을 별도로 사용하는 것보다 엔드 투 엔드 ASR 성능을 향상시킬 수 있는가?
  • RQ2사전에 훈련된 RNN-LM를 통합하면 언어 자원 없이도 엔드 투 엔드 ASR의 정확도를 상당히 향상시킬 수 있는가?
  • RQ3깊이 있는 VGG 스타일의 CNN 인코더는 엔드 투 엔드 ASR를 위한 분별성 청각 특징을 효과적으로 캡처할 수 있는가?
  • RQ4엔드 투 엔드 모델은 저자원 환경에서 즉흥적인 음성 작업에서 전통적인 하이브리드 HMM-GMM 또는 DNN-HMM 시스템을 능가할 수 있는가?
  • RQ5주 모델과 함께 RNN-LM를 공동으로 훈련시키는 것이 최종 정확도에 미치는 영향은 무엇인가?

주요 결과

  • CSJ 즉흥 일본어 음성 인식 작업에서, MTL-large + 공동 디코딩 + RNN-LM 설정을 사용한 모델은 6.9%의 CER을 기록하여 DNN-하이브리드 시스템을 능가했다.
  • HKUST 간체자모 중국어 작업에서, VGG와 RNN-LM를 사용한 모델은 28.0%의 CER을 기록하여 최신 기술 수준의 레이티스-프리 MMI 시스템(28.2% CER)을 초월했다.
  • MTS 작업에서 단일 통과 공동 디코딩 방법은 기준 어텐션 모델(37.8%에서 33.9%) 대비 CER을 3.8% 감소시켰다.
  • 별도로 훈련된 RNN-LM의 통합은 MTS 작업에서 CER을 3.0% 감소시켰다(37.8%에서 33.3%), 이는 그 강력한 영향을 입증한다.
  • 일본어 및 중국어 즉흥 음성 데이터셋에서 이전의 엔드 투 엔드 시스템 대비 5–10%의 상대적 오류 감소를 달성했다.
  • 계산 자원의 제약으로 공동 RNN-LM 훈련이 불가능하더라도 모델은 최신 기술 수준의 성능을 달성했으며, 이는 최소한의 언어 사전 지식으로도 강력한 일반화 능력을 지닌다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.