Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition

Hagen Soltau, Hank Liao|arXiv (Cornell University)|2016. 10. 31.
Speech Recognition and Synthesis참고 문헌 15인용 수 57
한 줄 요약

이 논문은 음성 입력에서 전체 단어를 직접 예측하는 데 깊이 있는 양방향 LSTM RNN과 CTC 손실을 사용하여 경쟁적인 엔드 투 엔드 대규모 어휘 어휘 인식 시스템을 제시한다. 이는 발음 사전, 언어 모델, 또는 디코딩이 필요 없게 한다. 125,000시간의 준감독 YouTube 자막 데이터로 훈련된 모델은 도전적인 YouTube 번역 작업에서 13.4%의 단어 오류율을 기록하며, 강력한 전통적인 문맥 의존성 음소 기반 시스템을 능가한다.

ABSTRACT

We present results that show it is possible to build a competitive, greatly simplified, large vocabulary continuous speech recognition system with whole words as acoustic units. We model the output vocabulary of about 100,000 words directly using deep bi-directional LSTM RNNs with CTC loss. The model is trained on 125,000 hours of semi-supervised acoustic training data, which enables us to alleviate the data sparsity problem for word models. We show that the CTC word models work very well as an end-to-end all-neural speech recognition model without the use of traditional context-dependent sub-word phone units that require a pronunciation lexicon, and without any language model removing the need to decode. We demonstrate that the CTC word models perform better than a strong, more complex, state-of-the-art baseline with sub-word units.

연구 동기 및 목표

  • 발음 사전과 언어 모델 등의 전통적 구성 요소를 생략하는 단순화된 엔드 투 엔드 음성 인식 시스템을 개발하는 것.
  • 깊이 있는 신경망을 사용한 직접적인 단어 수준 모델링이 대규모 어휘 작업에서 경쟁적인 성능을 달성할 수 있는지 조사하는 것.
  • 125,000시간의 YouTube 자막을 대규모 준감독 훈련을 통해 단어 수준 음성 모델링의 데이터 희소성 문제를 해결하는 것.
  • CTC 손실이 명시적 디코딩 없이도 단어 수준 모델의 엔드 투 엔드 훈련을 가능하게 하는지 평가하는 것.
  • 서브워드 유닛과 언어 모델을 사용하는 강력한 기준 시스템과의 성능 비교

제안 방법

  • 모델은 음성 시퀀스의 장기적 맥락을 포착하기 위해 스택된 정방향 및 역방향 LSTM 레이어를 사용하는 깊이 있는 양방향 LSTM RNN 아키텍처를 사용한다.
  • 네트워크는 연결주의적 시간 분류(CTC) 손실로 훈련되며, 이는 원시 음성 프레임에서 단어 시퀀스를 예측할 수 있도록 허용하는 정렬 자유 시퀀스 모델링을 가능하게 한다.
  • 출력 레이어는 100,000개의 단어(숫자 엔티티 포함)와 변수 길이 정렬을 처리하기 위한 특수 빈 토큰을 포함한 어휘에 대해 소프트맥스를 사용한다.
  • CTC 손실 함수는 입력 프레임과 레이블 시퀀스 간의 가능한 모든 정렬 라티스를 통해 전진-후진 알고리즘을 사용하여 계산된다.
  • 모델은 단어 수준 단위의 데이터 희소성 문제를 완화하기 위해 공개된 YouTube 영상의 125,000시간의 준감독 음성 자막으로 훈련된다.
  • 두 가지 변형이 평가되었으며, '말하는 단어' 모델(말하는 형태로 출력)과 '쓰여진 단어' 모델(정규화된 쓰여진 형태로 출력)이며, 양측 모두 엔드 투 엔드로 훈련된다.
Figure 1: The word posterior probabilities as predicted by the NSR model at each time-frame (30 msec) for a segment of music video ‘Stressed Out’ by Twenty One Pilots. We only plot the word with highest posterior and the missing words from the correct transcription: ‘Sometimes a certain smell will t
Figure 1: The word posterior probabilities as predicted by the NSR model at each time-frame (30 msec) for a segment of music video ‘Stressed Out’ by Twenty One Pilots. We only plot the word with highest posterior and the missing words from the correct transcription: ‘Sometimes a certain smell will t

실험 결과

연구 질문

  • RQ1CTC 손실과 함께 깊이 있는 양방향 LSTM RNN 아키텍처가 전체 단어를 음성 단위로 사용하여 대규모 어휘 음성 인식을 효과적으로 모델링할 수 있는가?
  • RQ2직접적인 단어 수준 모델링이 엔드 투 엔드 시스템에서 발음 사전과 언어 모델이 필요 없게 하는가?
  • RQ3충분한 훈련 데이터가 단어 수준 음성 모델링의 데이터 희소성 문제를 보완하여 경쟁적인 성능을 달성할 수 있는가?
  • RQ4언어 모델링과 디코딩이 있는 강력한 문맥 의존성 음소 기반 시스템과 비교해 CTC 기반의 단어 모델 성능은 어떠한가?
  • RQ5언어 모델이 CTC 단어 모델의 성능에 미치는 영향은 얼마나 되며, 이는 전통적 시스템에 비해 어떤가?

주요 결과

  • CTC 단어 모델은 어려운 YouTube 영상 번역 작업에서 13.4%의 단어 오류율을 기록하며, 14.2%의 WER를 기록한 강력한 전통적인 문맥 의존성 음소 기반 시스템을 능가한다.
  • 언어 모델이나 디코딩 없이도 CTC 단어 모델은 12.0%의 WER를 기록하며, 3000만 개의 5-그램 언어 모델을 사용한 CD 음소 모델보다 略적으로 뛰어난 성능을 보인다.
  • 언어 모델을 추가하면 CTC 말하는 단어 모델의 WER가 12.0%에서 11.6%로 향상되며, 기존 시스템에 비해 언어 모델 의존도가 낮다는 것을 시사한다.
  • 언어 모델로 라티스를 재평가할 때 CTC 쓰여진 단어 모델은 13.4%의 WER를 기록하며, 단지 0.5%의 향상만을 보이며, 이는 모델이 이미 매우 강건하다는 것을 시사한다.
  • 모델은 강력한 일반화 능력을 보이며, 훈련 데이터에 포함되지 않은 음악 영상도 정확하게 변환하는 것으로 확인되었으며, 정성적 결과에서 이를 입증한다.
  • 결과는 대규모 준감독 데이터(125,000시간)가 단어 수준 모델의 효과적인 훈련을 가능하게 하며, 서브워드 유닛 시스템에 대한 실질적인 대안이 될 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.