QUICK REVIEW

[논문 리뷰] Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM

Takaaki Hori, Shinji Watanabe|arXiv (Cornell University)|2017. 06. 08.

Speech Recognition and Synthesis참고 문헌 26인용 수 21

한 줄 요약

이 논문은 깊이 있는 VGG 기반의 CNN 인코더와 외부 RNN 언어모델(RNN-LM)을 갖춘 공동 CTC-attention 엔드 투 엔드 ASR 모델을 제안하며, 일본어 및 중국어 음성 인식에서 최신 기술 수준의 성능을 달성한다. 훈련 및 비트 스캐닝 디코딩 중에 CTC와 어텐션을 함께 사용하고(재평가 또는 단일 통과 방법을 통해), 별도로 훈련된 RNN-LM을 통합함으로써, 이전 시스템 대비 문자 오류율(CER)을 5–10% 감소시키며, 언어 자원이 없는 상황에서도 전통적인 하이브리드 ASR 시스템을 능가한다.

ABSTRACT

We present a state-of-the-art end-to-end Automatic Speech Recognition (ASR) model. We learn to listen and write characters with a joint Connectionist Temporal Classification (CTC) and attention-based encoder-decoder network. The encoder is a deep Convolutional Neural Network (CNN) based on the VGG network. The CTC network sits on top of the encoder and is jointly trained with the attention-based decoder. During the beam search process, we combine the CTC predictions, the attention-based decoder predictions and a separately trained LSTM language model. We achieve a 5-10\% error reduction compared to prior systems on spontaneous Japanese and Chinese speech, and our end-to-end model beats out traditional hybrid ASR systems.

연구 동기 및 목표

발음 사전과 언어모델과 같은 복잡한 모듈성 컴ponent에 의존하지 않고 엔드 투 엔드 ASR를 단순화하기 위해.
훈련 및 디코딩 중에 CTC와 어텐션 목표를 공동으로 훈련시켜 정확도를 향상시키기 위해.
깊이 있는 VGG 스타일의 CNN 인코더를 사용해 청각 표현 학습을 향상시키기 위해.
언어 전처리 없이도 개선된 언어 모델링을 위한 문자 수준의 RNN-LM 통합을 위해.
엔드 투 엔드 모델이 저자원 및 즉흥적인 음성 작업에서 전통적인 하이브리드 ASR 시스템을 능가할 수 있음을 입증하기 위해.

제안 방법

모델은 계층적 청각 특징을 추출하기 위해 4개의 합성곱층과 2개의 맥스 풀링층을 갖춘 VGG 아키텍처 기반의 깊이 있는 CNN 인코더를 사용한다.
공동 CTC-attention 프레임워크는 인코더를 CTC 및 어텐션 목표로 동시에 훈련시켜 정렬을 정규화하고 단조성을 향상시킨다.
추론 중 비트 스캐닝은 재평가 또는 단일 통과 디코딩을 통해 CTC 예측, 어텐션 기반 디코더 출력, RNN-LM 점수를 조합한다.
외부 RNN-LM는 ASR에 사용된 동일한 텍스트 데이터로 훈련되며, 별도 또는 주 모델과 함께 사용할 수 있다.
모델은 Chainer 딥러닝 프레임워크를 사용하여 다중 과제 학습(MTL)과 속도 왜곡을 통한 데이터 증강을 통해 훈련된다.
공동 CTC-attention 디코딩은 CTC와 어텐션 확률의 가중 조합을 사용하여 정확도와 강인성을 향상시킨다.

실험 결과

연구 질문

RQ1공동 CTC-attention 디코딩이 CTC나 어텐션을 별도로 사용하는 것보다 엔드 투 엔드 ASR 성능을 향상시킬 수 있는가?
RQ2사전에 훈련된 RNN-LM를 통합하면 언어 자원 없이도 엔드 투 엔드 ASR의 정확도를 상당히 향상시킬 수 있는가?
RQ3깊이 있는 VGG 스타일의 CNN 인코더는 엔드 투 엔드 ASR를 위한 분별성 청각 특징을 효과적으로 캡처할 수 있는가?
RQ4엔드 투 엔드 모델은 저자원 환경에서 즉흥적인 음성 작업에서 전통적인 하이브리드 HMM-GMM 또는 DNN-HMM 시스템을 능가할 수 있는가?
RQ5주 모델과 함께 RNN-LM를 공동으로 훈련시키는 것이 최종 정확도에 미치는 영향은 무엇인가?

주요 결과

CSJ 즉흥 일본어 음성 인식 작업에서, MTL-large + 공동 디코딩 + RNN-LM 설정을 사용한 모델은 6.9%의 CER을 기록하여 DNN-하이브리드 시스템을 능가했다.
HKUST 간체자모 중국어 작업에서, VGG와 RNN-LM를 사용한 모델은 28.0%의 CER을 기록하여 최신 기술 수준의 레이티스-프리 MMI 시스템(28.2% CER)을 초월했다.
MTS 작업에서 단일 통과 공동 디코딩 방법은 기준 어텐션 모델(37.8%에서 33.9%) 대비 CER을 3.8% 감소시켰다.
별도로 훈련된 RNN-LM의 통합은 MTS 작업에서 CER을 3.0% 감소시켰다(37.8%에서 33.3%), 이는 그 강력한 영향을 입증한다.
일본어 및 중국어 즉흥 음성 데이터셋에서 이전의 엔드 투 엔드 시스템 대비 5–10%의 상대적 오류 감소를 달성했다.
계산 자원의 제약으로 공동 RNN-LM 훈련이 불가능하더라도 모델은 최신 기술 수준의 성능을 달성했으며, 이는 최소한의 언어 사전 지식으로도 강력한 일반화 능력을 지닌다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.