Skip to main content
QUICK REVIEW

[논문 리뷰] Towards better decoding and language model integration in sequence to sequence models

Jan Chorowski, Navdeep Jaitly|arXiv (Cornell University)|2016. 12. 08.
Speech Recognition and Synthesis참고 문헌 27인용 수 58
한 줄 요약

이 논문은 시퀀스 투 시퀀스(sequ2seq) 모델에서 음성 인식을 위한 개선된 디코딩 및 언어 모델 통합 기법을 제안하며, 빔 서치 중에 레이블 스무딩과 커버리지 페널티를 도입함으로써 과신뢰도와 불완전한 번역을 줄입니다. 이 방법은 언어 모델 없이도 10.6% WER, 삼단어 언어 모델을 사용할 경우 6.7% WER의 성능을 달성하여 월 스트리트 저널 데이터셋에서 뛰어난 성능을 보입니다.

ABSTRACT

The recently proposed Sequence-to-Sequence (seq2seq) framework advocates replacing complex data processing pipelines, such as an entire automatic speech recognition system, with a single neural network trained in an end-to-end fashion. In this contribution, we analyse an attention-based seq2seq speech recognition system that directly transcribes recordings into characters. We observe two shortcomings: overconfidence in its predictions and a tendency to produce incomplete transcriptions when language models are used. We propose practical solutions to both problems achieving competitive speaker independent word error rates on the Wall Street Journal dataset: without separate language models we reach 10.6% WER, while together with a trigram language model, we reach 6.7% WER.

연구 동기 및 목표

  • 주의 기반 seq2seq 모델에서의 과신뢰도와 불완전한 번역을 해결하기 위해.
  • 학습 중에 모델 예측을 정규화하여 일반화 능력과 디코딩 품질을 향상시키기 위해.
  • 아키텍처의 복잡성을 증가시키지 않으면서 외부 언어 모델을 효과적으로 통합하기 위해.
  • 반복 프레임에 대한 주의 집중을 줄이기 위해 커버리지 페널티를 도입하여 빔 서치 디코딩을 최적화하기 위해.
  • CTC 및 DNN-HMM 시스템과 같은 강력한 베이스라인과 경쟁 가능한 성능을 입증하기 위해.

제안 방법

  • 학습 중에 타겟 분포를 부드럽게 하기 위해 단일어 및 시간적 레이블 스무딩을 적용하여 모델의 과신뢰도를 감소시킴.
  • 빈도가 높은 프레임에 대한 주의 집중을 방지하기 위해 빔 서치 중에 커버리지 페널티를 도입함.
  • 최적의 가설 선택을 위해 조정 가능한 빔 폭, 언어 모델 가중치, 커버리지 임계값을 갖춘 빔 서치 디코더를 사용함.
  • 이전 주의 가중치에 대한 컨볼루션 필터를 적용하여 주의 메커니즘의 정렬 안정성을 향상시킴.
  • 레이블 스무딩과 함께 크로스 엔트로피 손실을 사용하고, 학습률 스케줄링을 적용한 ADAM 최적화 기법을 사용하여 모델을 훈련함.
  • 학습 중에 추가로 웨이트 노이즈와 웨이트 디케이를 정규화 기법으로 적용함.

실험 결과

연구 질문

  • RQ1seq2seq 모델 예측의 과신뢰도를 어떻게 줄여야 디코딩 다양성을 향상시킬 수 있는가?
  • RQ2레이블 스무딩이 엔드 투 엔드 음성 인식에서 WER와 모델 일반화 능력에 어떤 영향을 미치는가?
  • RQ3빈도가 높은 반복 프레임에 대한 주의 집중을 줄이기 위해 빔 서치 중 커버리지 페널티가 어떻게 불완전한 번역과 주의 반복을 줄이는가?
  • RQ4seq2seq 모델에 언어 모델을 단순히 통합하면 아키텍처의 복잡성 없이도 경쟁 가능한 성능을 달성할 수 있는가?
  • RQ5국소 정규화 기반 정규화가 전역 정규화 또는 레이티스 기반 훈련보다 얼마나 더 우수한 성능을 내는가?

주요 결과

  • 외부 언어 모델 없이도 WSJ eval92 세트에서 레이블 스무딩으로 WER를 14.2%에서 10.6%로 감소시킴.
  • 삼단어 언어 모델을 사용할 경우, eval92에서 6.7% WER를 달성하여 최신의 DNN-HMM 및 CTC 앙상블 시스템과 동등한 성능을 보임.
  • 커버리지 페널티는 번역의 완전성을 크게 향상시켜 주의 집중 생략 또는 반복으로 인한 오류를 줄임.
  • 시간적 레이블 스무딩(이웃 토큰 기반)은 단일어 스무딩보다 우수한 성능을 보이며, 언어 모델링을 적용한 dev93에서 9.7% WER 달성.
  • 단지 660만 파라미터로도 경쟁 가능한 성능을 달성하여 깊은 아키텍처 대비 효율성을 입증함.
  • 적절하게 튜닝된 빔 서치 파라미터(빔 폭 200, λ=0.5, γ=1.5, τ=0.5)가 언어 모델을 사용할 경우 최적의 성능을 내기 위해 필수적임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.