QUICK REVIEW

[논문 리뷰] Wav2Letter: an End-to-End ConvNet-based Speech Recognition System

Ronan Collobert, Christian Puhrsch|arXiv (Cornell University)|2016. 09. 11.

Speech Recognition and Synthesis참고 문헌 24인용 수 248

한 줄 요약

이 논문은 AutoSegCriterion (ASG)로 학습된 Grapheme 기반 음성 인식용 엔드-투-엔드 ConvNet 기반 음향 모델과 간단한 beam-search 디코더를 결합하여 force alignment나 HMM/GMM 파이프라인 없이 LibriSpeech에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

This paper presents a simple end-to-end model for speech recognition, combining a convolutional network based acoustic model and a graph decoding. It is trained to output letters, with transcribed speech, without the need for force alignment of phonemes. We introduce an automatic segmentation criterion for training from sequence annotation without alignment that is on par with CTC while being simpler. We show competitive results in word error rate on the Librispeech corpus with MFCC features, and promising results from raw waveform.

연구 동기 및 목표

ASR에서 force-aligned 음성학적 전사를 직접 graphemes에 대해 학습함으로써 필요 제거를 달성한다.
1D ConvNets와 그래프 기반 세분화 기준을 이용한 간단한 엔드-투-엔드 아키텍처를 제안한다.
MFCC, 파워 스펙트럼, 그리고 원시 파형 입력을 사용한 LibriSpeech에서의 경쟁력 있는 단어 오류율(WER)을 입증한다.
ASG가 표준 벤치마크에서 CTC와 속도 및 정확도 면에서 같거나 더 나을 수 있음을 보여준다.

제안 방법

입력 특징(MFCC, 파워 스펙트럼, 또는 원시 파형)을 문자 점수로 매핑하기 위해 1D convolutional neural networks를 음향 모델로 사용한다.
무정규화된 노드 점수와 전역 정규화를 갖는 그래프 기반 세분화 기준인 AutoSegCriterion (ASG)를 도입하여 빈 레이블을 피한다.
TIme에 따른 펼쳐진 그래프를 사용하여 ASG로 학습하고 로그-합(logadd) 연산을 통해 forward-score를 최적화하되 blanks 없이 CTC와 유사하게 동작한다.
언어 모델 통합(KenLM)과 단어 삽입 페널티를 갖춘 간단한 one-pass beam-search 디코더를 도입한다.
16 kHz 오디오, 30-letter grapheme 세트(아포스트로피, 침묵, 반복 표기를 포함)로 LibriSpeech를 평가하고 ASG를 CTC와 비교한다.

실험 결과

연구 질문

RQ1force-aligned가 없는 엔드-투-엔드 Grapheme 기반 음향 모델이 LibriSpeech에서 경쟁력 있는 WER을 달성할 수 있는가?
RQ2ASG가 blanks 없이 시퀀스 라벨링에서 CTC와 비교해 동등하거나 더 나은 성능과 속도를 제공하는가?
RQ3이 아키텍처에서 MFCC, 파워 스펙트럼, 원시 파형 입력은 엔드-투-엔드 Grapheme ASR에서 어떻게 비교되는가?
RQ4데이터 증강과 학습 크기가 ASG 성능에 어떤 영향을 미치는가?
RQ5외부 언어 모델과의 간단한 디코더가 표준 벤치마크에서 얼마나 잘 작동하는가?

주요 결과

ASG는 CPU에서 동일한 데이터에 대해 CTC와 비교 가능할 만큼 LER를 달성하며 장문 시퀀스에서 더 빠를 수 있다.
LibriSpeech에서 MFCC 기반 모델은 dev-clean에 대해 약 6.9% LER, test-clean에 대해 약 7.2% WER를 달성한다(보고된 최적 결과).
파워 스펙트럼 및 원시 파형 입력은 MFCC에 비해 높은 LER/ WER를 보이지만 데이터 크기가 증가함에 따라 경쟁력을 유지한다.
데이터 증강은 작은 학습 데이터에서 더 큰 효과를 발휘하며, 대규모 데이터일 때는 MFCC와 파워 스펙트럼의 성능이 비슷하다.
제안된 엔드-투-엔드 시스템은 HMM/GMM 강제 정렬 없이 작동하며 디코딩이 일부 기반 RNN 시스템보다 현저히 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.