QUICK REVIEW

[논문 리뷰] Cascaded CNN-resBiLSTM-CTC: An End-to-End Speech Recognition Acoustic Model

Xinpei Zhou, Jiwei Li|arXiv (Cornell University)|2018. 10. 29.

Speech Recognition and Synthesis인용 수 1

한 줄 요약

이 논문은 잔차 블록을 양방향 LSTM에 통합하여 음소 및 의미 특징 추출을 향상시키고, 하드 음성 샘플에 집중하기 위해 계단식 구조를 사용하는 캐스케이드형 CNN-resBiLSTM-CTC 엔드 투 엔드 ASR 모델을 제안한다. 이 모델은 LibriSpeech test-clean에서 3.41%의 WER를 달성하며, 새로운 배치 변동 학습 방법을 통해 학습 시간을 25% 감소시킨다.

ABSTRACT

Automatic speech recognition (ASR) tasks are resolved by end-to-end deep learning models, which benefits us by less preparation of raw data, and easier transformation between languages. We propose a novel end-to-end deep learning model architecture namely cascaded CNN-resBiLSTM-CTC. In the proposed model, we add residual blocks in BiLSTM layers to extract sophisticated phoneme and semantic information together, and apply cascaded structure to pay more attention mining information of hard negative samples. By applying both simple Fast Fourier Transform (FFT) technique and n-gram language model (LM) rescoring method, we manage to achieve word error rate (WER) of 3.41% on LibriSpeech test clean corpora. Furthermore, we propose a new batch-varied method to speed up the training process in length-varied tasks, which result in 25% less training time.

연구 동기 및 목표

원시 오디오에서의 특징 추출을 향상시켜 엔드 투 엔드 음성 인식(ASR) 성능을 향상시키기.
특히 어려운 음성 샘플에 집중하여 학습하는 계단식 아키텍처를 도입하여 ASR에서 하드 음성 샘플 문제를 해결하기.
길이가 변동되는 시퀀스 작업에서 새로운 배치 변동 학습 전략을 통해 학습 시간을 단축시키기.
최소한의 데이터 전처리로 LibriSpeech test-clean에서 최고 수준의 WER 성능 달성하기.

제안 방법

잔차 블록을 양방향 LSTM(BiLSTM) 레이어 내부에 통합하여 기울기 유입을 향상시키고 음성 시퀀스 내 복잡한 시간적 의존성을 포착하기.
하드 음성 샘플에 대해 더 높은 주의를 기울이는 계단식 아키텍처를 적용하여 모델의 일반화 능력을 향상시키기.
원시 오디오 입력에서 스펙트럼 특징 추출을 위해 빠른 푸리에 변환(FFT)을 적용하기.
번역 결과를 정밀하게 다듬기 위해 n-gram 언어 모델(LM)을 사용하여 재평가하기.
길이가 변동되는 시퀀스에서 학습을 가속화하기 위해 동적으로 배치 크기를 조정하는 새로운 배치 변동 학습 방법을 제안하기.
지역적 특징 추출을 위해 CNN을, 문맥 모델링을 위해 잔차 향상된 BiLSTM를, 시퀀스 간의 정렬을 위해 CTC를 조합하기.

실험 결과

연구 질문

RQ1BiLSTM 레이어 내부의 잔차 연결이 엔드 투 엔드 ASR에서 음소 및 의미 표현 학습을 향상시킬 수 있는가?
RQ2하드 음성 샘플에 집중하는 계단식 아키텍처가 성능 향상에 기여하는가?
RQ3배치 변동 학습 방법이 길이가 변동되는 음성 시퀀스에 대해 학습 시간을 크게 단축시킬 수 있는가?
RQ4제안된 계단식 CNN-resBiLSTM-CTC 모델을 사용해 LibriSpeech test-clean에서 어떤 WER 성능을 달성할 수 있는가?

주요 결과

제안된 계단식 CNN-resBiLSTM-CTC 모델은 LibriSpeech test-clean 데이터셋에서 단어 오류율(WER)이 3.41%를 기록했다.
BiLSTM 레이어에 잔차 블록을 통합함으로써 모델이 고도로 복잡한 음소 및 의미 특징을 추출하는 데 능력을 향상시켰다.
계단식 아키텍처는 하드 음성 샘플에 대한 학습을 효과적으로 향상시켜 ASR 정확도 향상에 기여했다.
배치 변동 학습 방법을 통해 길이가 변동되는 음성 시퀀스에서 표준 학습 대비 학습 시간을 25% 감소시켰다.
FFT와 n-gram 언어 모델을 이용한 재평가 전략의 조합은 추가 미세조정 없이도 번역 품질을 더욱 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.