QUICK REVIEW

[논문 리뷰] Letter-Based Speech Recognition with Gated ConvNets

Vitaliy Liptchinsky, Gabriel Synnaeve|arXiv (Cornell University)|2017. 12. 22.

Speech Recognition and Synthesis참고 문헌 47인용 수 34

한 줄 요약

이 논문은 고도로 드롭아웃된 구조적 출력 학습을 통해 CTC 또는 ASG를 사용하는 게이트드 컨볼루션 네트워크(Gated ConvNets)를 활용한 문자 기반 음성 인식 시스템을 제안하며, 추가 데이터나 고급 언어 모델을 사용하지 않고 LibriSpeech에서 최신 기준 성능을 달성하고 WSJ에서도 기존 최고의 문자 기반 모델과 동등한 성능을 내는 것으로 나타났다.

ABSTRACT

In the recent literature, "end-to-end" speech systems often refer to letter-based acoustic models trained in a sequence-to-sequence manner, either via a recurrent model or via a structured output learning approach (such as CTC). In contrast to traditional phone (or senone)-based approaches, these "end-to-end'' approaches alleviate the need of word pronunciation modeling, and do not require a "forced alignment" step at training time. Phone-based approaches remain however state of the art on classical benchmarks. In this paper, we propose a letter-based speech recognition system, leveraging a ConvNet acoustic model. Key ingredients of the ConvNet are Gated Linear Units and high dropout. The ConvNet is trained to map audio sequences to their corresponding letter transcriptions, either via a classical CTC approach, or via a recent variant called ASG. Coupled with a simple decoder at inference time, our system matches the best existing letter-based systems on WSJ (in word error rate), and shows near state of the art performance on LibriSpeech.

연구 동기 및 목표

기존의 음소 기반 음성 모델링과 강제 정렬을 회피하는 단순한 엔드 투 엔드 음성 인식 시스템을 개발하는 것.
게이트드 선형 유닛(GLUs)을 사용하는 컨볼루션 네트워크(ConvNets)가 RNN 기반 또는 하이브리드 시스템과 비교해 문자 기반 음성 인식에서 경쟁 가능한 성능을 낼 수 있는지 조사하는 것.
외부 언어 모델이나 데이터 증강 없이도 문맥 기반 출력 학습(CTC 및 ASG)이 문자 수준의 음성 모델 학습에 얼마나 효과적인지 평가하는 것.
표준 벤치마크인 WSJ 및 LibriSpeech에서 기존 최신 기준의 문자 기반 및 음소 기반 ASR 시스템과의 성능 비교를 수행하는 것.

제안 방법

음성 모델은 게이트드 선형 유닛(GLUs)을 사용하는 1D 컨볼루션 네트워크이며, 이는 기울기 소실 문제를 완화하면서도 비선형 표현 능력을 유지하는 데 기여한다.
모델은 원시 음성에서 추출한 로그멜 필터뱅크 특징을 처리하고, 각 시간 프레임에 대해 문자에 대한 확률 분포를 출력한다.
학습은 연결주의 시간 분류(CTC) 또는 Collobert 등(2016)에서 제안한 ASG의 변종을 사용하며, 양쪽 모두 엔드 투 엔드 시퀀스-투-시퀀스 학습을 가능하게 한다.
추론 시에는 모델의 문자 수준 출력에서 가장 가능성 높은 단어 시퀀스를 생성하기 위해 고유의 비트 서치 디코더를 사용한다.
일반화 성능 향상과 과적합 방지를 위해 학습 중에 높은 드롭아웃 비율을 적용한다.
대부분의 설정에서 시스템은 원시 음성과 문자 전사 데이터만을 사용하여 학습되며, 화자 적응 또는 외부 언어 모델이 포함되지 않는다.

실험 결과

연구 질문

RQ1게이트드 컨볼루션 네트워크 기반 음성 모델이 RNN이나 어텐션 메커니즘에 의존하지 않고도 문자 기반 음성 인식에서 경쟁 가능한 단어 오류율(WER)을 달성할 수 있는가?
RQ2CTC 또는 ASG를 통한 구조적 출력 학습이 문자 수준 ASR에서 다른 시퀀스 학습 기준과 비교해 성능 면에서 어떻게 다른가?
RQ3명시적인 음소 또는 세노드 모델링 없이도 단순한 컨볼루션 네트워크 기반 모델이 얼마나 강력한 발음 패턴을 암묵적으로 학습할 수 있는가?
RQ4추가 데이터나 언어 모델을 사용하지 않을 경우, 제안된 시스템이 WSJ 및 LibriSpeech와 같은 표준 벤치마크에서 기존의 문자 기반 시스템을 초월할 수 있는가?
RQ5학습 데이터 크기에 따라 모델 성능이 어떻게 변화하는가? 그리고 대규모 데이터셋인 LibriSpeech에서 음소 기반 시스템과 경쟁할 수 있는가?

주요 결과

제안된 게이트드 컨볼루션 네트워크 시스템은 LibriSpeech test-clean에서 5.1%의 단어 오류율(WER)을 기록하여, 기존 최고의 문자 기반 시스템과 동등한 성능을 내며, 학습 데이터를 10배 적게 사용했음에도 Deep Speech 2의 청소화된 데이터 성능을 뛰어넘었다.
LibriSpeech test-other에서는 CTC를 사용할 경우 16.0%, ASG를 사용할 경우 14.5%의 WER를 기록하여 강력한 내성성과 최신 기준의 문자 기반 모델과의 경쟁력을 입증했다.
WSJ eval92에서는 ASG를 사용해 5.6%의 WER를 기록하여, 기존에 보고된 최고의 문자 기반 성능과 동일했으며, 추가 데이터나 언어 모델을 사용한 많은 이전의 문자 기반 시스템을 뛰어넘었다.
디코더 없이도 LibriSpeech test-clean에서 6.7%의 WER를 기록하여, 게이트드 컨볼루션 네트워크의 원시 출력이 이미 강력한 단어 수준 표현을 담고 있음을 시사한다.
화자 적응, 언어 모델 통합, 데이터 증강 없이도 LibriSpeech에서 경쟁 가능한 성능를 기록하여, 아키텍처와 학습 설정의 효과성을 입증했다.
WSJ에서는 여전히 음소 기반 시스템(3.5% WER)이 높은 성능를 기록하고 있으나, 제안된 문자 기반 시스템은 엔드 투 엔드 모델 중 최고 성능을 내는 편에 속하며, 충분한 데이터가 제공된다면 발음 모델링이 엔드 투 엔드로 효과적으로 학습될 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.