QUICK REVIEW

[논문 리뷰] Fully Convolutional Speech Recognition

Neil Zeghidour, Qiantong Xu|arXiv (Cornell University)|2018. 12. 17.

Speech Recognition and Synthesis참고 문헌 27인용 수 82

한 줄 요약

이 논문은 원시 파형에서 실행되는 학습 가능한 프런트 엔드와 컨볼루션 언어 모델을 갖춘 완전 합성곱(fully convolutional) 엔드 투 엔드 음성 인식 시스템을 제시하며, WSJ와 Librispeech에서 엔드 투 엔드 시스템 중 최첨단 결과를 달성한다.

ABSTRACT

Current state-of-the-art speech recognition systems build on recurrent neural networks for acoustic and/or language modeling, and rely on feature extraction pipelines to extract mel-filterbanks or cepstral coefficients. In this paper we present an alternative approach based solely on convolutional neural networks, leveraging recent advances in acoustic models from the raw waveform and language modeling. This fully convolutional approach is trained end-to-end to predict characters from the raw waveform, removing the feature extraction step altogether. An external convolutional language model is used to decode words. On Wall Street Journal, our model matches the current state-of-the-art. On Librispeech, we report state-of-the-art performance among end-to-end models, including Deep Speech 2 trained with 12 times more acoustic data and significantly more linguistic data.

연구 동기 및 목표

엔드-투-엔드 ASR를 위해 순환형 아키텍처를 완전 합성곱 네트워크로 대체하는 것을 제안한다.
수작업으로 설계된 특징(hand-crafted features) 없이 원시 파형에서의 엔드-투-엔드 학습을 입증한다.
ASR 디코딩을 위한 컨볼루션 언어 모델을 도입한다.
대규모 어휘 데이터셋(WSJ와 Librispeech)에서 평가하여 엔드-투-엔드 시스템 중 최첨단 수준을 확립한다.
학습 가능한 프런트엔드의 분석과 특히 소음 조건에서 성능에 대한 영향도를 분석한다.

제안 방법

프리엠퍼시스(pre-emphasis)를 흉내 내고 원시 파형에서 특징과 유사한 표현을 계산하는 학습 가능한 프런트 엔드.
Auto Segmentation Criterion (ASG)을 사용해 글자를 예측하도록 학습된 게이트드 선형 유닛(Gated Linear Units)을 갖는 깊은 합성곱 음향 모델.
빔 검색 중 전사를 점수화하는 컨볼루션언어모델(GCNN-14B).
음향 모델 점수와 컨볼루션 LM을 통합하고 LM 가중치, 단어 삽입 보상, 무음 페널티에 대해 조정된 하이퍼파라미터를 사용한 빔 검색 디코딩.
WSJ(80시간)와 Librispeech(1000시간)에서의 학습 및 평가, 데이터세트별 언어 모델 학습 데이터 및 하이퍼파라미터 조정과 함께.

실험 결과

연구 질문

RQ1완전 합성곱 아키텍처가 엔드-투-엔드 ASR에서 음향 및 언어 모델링에 있어 순환 아키텍처와 동일하거나 그 이상으로 성능을 낼 수 있는가?
RQ2원시 파형에서 프런트 엔드를 학습하는 것이 전통적인 멜-필터 뱅크 특징보다 유리한가, 특히 소음 조건에서?
RQ3컨볼루션 언어 모델을 통합하는 것이 전통적인 n-그램 LM에 비해 디코딩 성능을 향상시키는가?
RQ4WSJ와 Librispeech 전반에 걸쳐 학습 가능한 프런트 엔드 필터 수와 LM 컨텍스트를 다르게 할 때 WER에 어떤 영향을 미치는가?
RQ5WSJ와 Librispeech에서 엔드-투-엔드 CNN 기반 ASR이 최첨단 시스템에 비해 어떤 성능을 보이는가?

주요 결과

완전 합성곱 모델은 엔드-투-엔드 시스템에서 WSJ의 현재 최첨단과 일치한다.
Librispeech에서 엔드-투-엔드 모델들 중 최첨단 성능을 달성하며, DeepSpeech 2를 포함해 노이즈 테스트 세트에서 절대 WER 2% 감소, 더맑은 말에서 약 0.5% 감소를 달성했다.
컨볼루션 언어 모델은 4-그램 LM에 비해 체계적인 개선을 보이며 더 나은 perplexity와 더 큰 수용 영역을 제공한다.
원시 파형에서 프런트 엔드를 학습하는 것이 특히 소음 데이터에서 성능을 향상시키며 학습 가능한 필터 수를 늘리면 추가적인 이득이 있다(예: Librispeech 소음 테스트 세트에서 절대 WER 1.5% 감소).
학습된 프런트 엔드 필터는 mel과 유사한 저주파 편향 스펙트럼에 모이는 경향이 있어 ASR에 mel 스케일이 최적이 아닐 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.