QUICK REVIEW

[논문 리뷰] Listen, Attend and Spell

William Chan, Navdeep Jaitly|arXiv (Cornell University)|2015. 08. 05.

Multimodal Machine Learning Applications참고 문헌 19인용 수 312

한 줄 요약

Listen, Attend and Spell (LAS)는 청취자(리스너)로 구성된 피라미드형 순환 인코더와 주의 기반 순환 디코더인 발음기(speller)를 결합한 엔드 투 엔드 신경망으로, 주의 기반 시퀀스-투-시퀀스 프레임워크를 사용해 음성에서 직접 문자 시퀀스로 변환한다. 언어 모델 없이 14.1% WER, 언어 모델 재평가를 통해 10.3% WER를 기록하며, 조건부 독립성 가정을 피하고 자연스러운 철자 변형 생성이 가능해 기존 엔드 투 엔드 모델을 능가한다.

ABSTRACT

We present Listen, Attend and Spell (LAS), a neural network that learns to transcribe speech utterances to characters. Unlike traditional DNN-HMM models, this model learns all the components of a speech recognizer jointly. Our system has two components: a listener and a speller. The listener is a pyramidal recurrent network encoder that accepts filter bank spectra as inputs. The speller is an attention-based recurrent network decoder that emits characters as outputs. The network produces character sequences without making any independence assumptions between the characters. This is the key improvement of LAS over previous end-to-end CTC models. On a subset of the Google voice search task, LAS achieves a word error rate (WER) of 14.1% without a dictionary or a language model, and 10.3% with language model rescoring over the top 32 beams. By comparison, the state-of-the-art CLDNN-HMM model achieves a WER of 8.0%.

연구 동기 및 목표

음소, HMM, 발음 사전 없이 음성을 텍스트로 변환하는 엔드 투 엔드 음성 인식 시스템을 개발한다.
조건부 독립성 가정을 피하기 위해 주의 기반 모델을 사용해 문자 시퀀스를 동시에 모델링함으로써 CTC의 한계를 극복한다.
동일한 발화에 대해 여러 철자 변형(예: 'triple a'와 'aaa')을 생성할 수 있도록 모델을 설계한다.
피라미드형 RNN 인코더와 학습 중 샘플링 기법을 사용해 훈련 안정성과 수렴 속도를 향상시킨다.
대규모 음성 검색 작업에서 언어 모델 재평가가 성능 향상에 크게 기여함을 입증한다.

제안 방법

리스너는 필터 백터 특징을 처리하고 시간 해상도를 감소시켜 주의 계산을 용이하게 하는 피라미드형 순환 신경망이다.
스펠러는 디코더의 은닉 상태에서 유도된 컨텍스트를 사용해 하나의 문자씩 생성하는 주의 기반 순환 디코더이다.
각 디코딩 단계에서 디코더의 은닉 상태를 사용해 인코더 출력에 주의를 기울여 청각 특징과 문자 간의 동적 정렬을 가능하게 한다.
학습 중 모델은 디코더에 진짜 문자 시퀀스를 입력으로 사용하며, 훈련 트랜스크립트의 암기를 방지하기 위해 샘플링 기법을 적용한다.
모델은 문자 수준 예측에 대해 교차 엔트로피 손실을 사용해 엔드 투 엔드로 훈련된다.
추론 후, 상위 32개의 빔 가설에 언어 모델 재평가를 적용해 WER를 향상시킨다.

실험 결과

연구 질문

RQ1주어진 음성 인식 작업에서 음소나 HMM을 사용하지 않고도 주의 기반 엔드 투 엔드 시퀀스-투-시퀀스 모델이 기존 하이브리드 DNN-HMM 시스템을 능가할 수 있는가?
RQ2CTC 모델의 조건부 독립성 가정과 달리, 주의 기반 모델은 동일한 발화에 대해 여러 가능한 철자 변형을 생성할 수 있는가?
RQ3피라미드형 RNN 인코더를 사용할 경우 표준 RNN과 비교해 훈련 속도와 수렴 속도가著실로 향상되는가?
RQ4엔드 투 엔드 모델과 결합했을 때 언어 모델 재평가의 효과는 얼마나 높은가?
RQ5명시적인 사전 지원 없이도 드문 단어나 OOV(Out-of-Vocabulary) 단어에 일반화할 수 있는가?

주요 결과

LAS는 언어 모델이나 사전 없이 Google 음성 검색 작업의 일부에서 14.1% WER를 기록한다.
상위 32개의 빔에 대해 언어 모델 재평가를 적용한 결과, WER는 10.3%로 감소하여 최신 기술 수준의 CLDNN-HMM 시스템(8.0% WER)에 근접한다.
모델은 'triple a'와 'aaa'와 같은 동일한 발화에 대해 자연스럽게 여러 철자 변형을 생성하며, 문자 간의 종속성을 모델링할 수 있음을 보여준다.
피라미드형 인코더를 사용하지 않을 경우, 훈련 수렴 속도가 너무 느려져 한 달이 넘도록 훈련해도 오차율이 크게 높아진다.
주의 메커니즘이 필수적이다. 주의 기반 모델이 없을 경우 모델은 심각하게 과적합되어 훈련 트랜스크립트를 암기할 뿐 아니라 청각 특징에 주의를 기울이지 못한다.
학습 중 샘플링 기법은 스펠러가 훈련 트랜스크립트에 과적합되는 것을 효과적으로 줄여 일반화 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.