QUICK REVIEW

[논문 리뷰] Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition

Hagen Soltau, Hank Liao|arXiv (Cornell University)|2016. 10. 31.

Speech Recognition and Synthesis참고 문헌 15인용 수 57

한 줄 요약

이 논문은 음성 입력에서 전체 단어를 직접 예측하는 데 깊이 있는 양방향 LSTM RNN과 CTC 손실을 사용하여 경쟁적인 엔드 투 엔드 대규모 어휘 어휘 인식 시스템을 제시한다. 이는 발음 사전, 언어 모델, 또는 디코딩이 필요 없게 한다. 125,000시간의 준감독 YouTube 자막 데이터로 훈련된 모델은 도전적인 YouTube 번역 작업에서 13.4%의 단어 오류율을 기록하며, 강력한 전통적인 문맥 의존성 음소 기반 시스템을 능가한다.

ABSTRACT

We present results that show it is possible to build a competitive, greatly simplified, large vocabulary continuous speech recognition system with whole words as acoustic units. We model the output vocabulary of about 100,000 words directly using deep bi-directional LSTM RNNs with CTC loss. The model is trained on 125,000 hours of semi-supervised acoustic training data, which enables us to alleviate the data sparsity problem for word models. We show that the CTC word models work very well as an end-to-end all-neural speech recognition model without the use of traditional context-dependent sub-word phone units that require a pronunciation lexicon, and without any language model removing the need to decode. We demonstrate that the CTC word models perform better than a strong, more complex, state-of-the-art baseline with sub-word units.

연구 동기 및 목표

발음 사전과 언어 모델 등의 전통적 구성 요소를 생략하는 단순화된 엔드 투 엔드 음성 인식 시스템을 개발하는 것.
깊이 있는 신경망을 사용한 직접적인 단어 수준 모델링이 대규모 어휘 작업에서 경쟁적인 성능을 달성할 수 있는지 조사하는 것.
125,000시간의 YouTube 자막을 대규모 준감독 훈련을 통해 단어 수준 음성 모델링의 데이터 희소성 문제를 해결하는 것.
CTC 손실이 명시적 디코딩 없이도 단어 수준 모델의 엔드 투 엔드 훈련을 가능하게 하는지 평가하는 것.
서브워드 유닛과 언어 모델을 사용하는 강력한 기준 시스템과의 성능 비교

제안 방법

모델은 음성 시퀀스의 장기적 맥락을 포착하기 위해 스택된 정방향 및 역방향 LSTM 레이어를 사용하는 깊이 있는 양방향 LSTM RNN 아키텍처를 사용한다.
네트워크는 연결주의적 시간 분류(CTC) 손실로 훈련되며, 이는 원시 음성 프레임에서 단어 시퀀스를 예측할 수 있도록 허용하는 정렬 자유 시퀀스 모델링을 가능하게 한다.
출력 레이어는 100,000개의 단어(숫자 엔티티 포함)와 변수 길이 정렬을 처리하기 위한 특수 빈 토큰을 포함한 어휘에 대해 소프트맥스를 사용한다.
CTC 손실 함수는 입력 프레임과 레이블 시퀀스 간의 가능한 모든 정렬 라티스를 통해 전진-후진 알고리즘을 사용하여 계산된다.
모델은 단어 수준 단위의 데이터 희소성 문제를 완화하기 위해 공개된 YouTube 영상의 125,000시간의 준감독 음성 자막으로 훈련된다.
두 가지 변형이 평가되었으며, '말하는 단어' 모델(말하는 형태로 출력)과 '쓰여진 단어' 모델(정규화된 쓰여진 형태로 출력)이며, 양측 모두 엔드 투 엔드로 훈련된다.

Figure 1: The word posterior probabilities as predicted by the NSR model at each time-frame (30 msec) for a segment of music video ‘Stressed Out’ by Twenty One Pilots. We only plot the word with highest posterior and the missing words from the correct transcription: ‘Sometimes a certain smell will t

실험 결과

연구 질문

RQ1CTC 손실과 함께 깊이 있는 양방향 LSTM RNN 아키텍처가 전체 단어를 음성 단위로 사용하여 대규모 어휘 음성 인식을 효과적으로 모델링할 수 있는가?
RQ2직접적인 단어 수준 모델링이 엔드 투 엔드 시스템에서 발음 사전과 언어 모델이 필요 없게 하는가?
RQ3충분한 훈련 데이터가 단어 수준 음성 모델링의 데이터 희소성 문제를 보완하여 경쟁적인 성능을 달성할 수 있는가?
RQ4언어 모델링과 디코딩이 있는 강력한 문맥 의존성 음소 기반 시스템과 비교해 CTC 기반의 단어 모델 성능은 어떠한가?
RQ5언어 모델이 CTC 단어 모델의 성능에 미치는 영향은 얼마나 되며, 이는 전통적 시스템에 비해 어떤가?

주요 결과

CTC 단어 모델은 어려운 YouTube 영상 번역 작업에서 13.4%의 단어 오류율을 기록하며, 14.2%의 WER를 기록한 강력한 전통적인 문맥 의존성 음소 기반 시스템을 능가한다.
언어 모델이나 디코딩 없이도 CTC 단어 모델은 12.0%의 WER를 기록하며, 3000만 개의 5-그램 언어 모델을 사용한 CD 음소 모델보다 略적으로 뛰어난 성능을 보인다.
언어 모델을 추가하면 CTC 말하는 단어 모델의 WER가 12.0%에서 11.6%로 향상되며, 기존 시스템에 비해 언어 모델 의존도가 낮다는 것을 시사한다.
언어 모델로 라티스를 재평가할 때 CTC 쓰여진 단어 모델은 13.4%의 WER를 기록하며, 단지 0.5%의 향상만을 보이며, 이는 모델이 이미 매우 강건하다는 것을 시사한다.
모델은 강력한 일반화 능력을 보이며, 훈련 데이터에 포함되지 않은 음악 영상도 정확하게 변환하는 것으로 확인되었으며, 정성적 결과에서 이를 입증한다.
결과는 대규모 준감독 데이터(125,000시간)가 단어 수준 모델의 효과적인 훈련을 가능하게 하며, 서브워드 유닛 시스템에 대한 실질적인 대안이 될 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.