QUICK REVIEW

[논문 리뷰] Towards better decoding and language model integration in sequence to sequence models

Jan Chorowski, Navdeep Jaitly|arXiv (Cornell University)|2016. 12. 08.

Speech Recognition and Synthesis참고 문헌 27인용 수 58

한 줄 요약

이 논문은 시퀀스 투 시퀀스(sequ2seq) 모델에서 음성 인식을 위한 개선된 디코딩 및 언어 모델 통합 기법을 제안하며, 빔 서치 중에 레이블 스무딩과 커버리지 페널티를 도입함으로써 과신뢰도와 불완전한 번역을 줄입니다. 이 방법은 언어 모델 없이도 10.6% WER, 삼단어 언어 모델을 사용할 경우 6.7% WER의 성능을 달성하여 월 스트리트 저널 데이터셋에서 뛰어난 성능을 보입니다.

ABSTRACT

The recently proposed Sequence-to-Sequence (seq2seq) framework advocates replacing complex data processing pipelines, such as an entire automatic speech recognition system, with a single neural network trained in an end-to-end fashion. In this contribution, we analyse an attention-based seq2seq speech recognition system that directly transcribes recordings into characters. We observe two shortcomings: overconfidence in its predictions and a tendency to produce incomplete transcriptions when language models are used. We propose practical solutions to both problems achieving competitive speaker independent word error rates on the Wall Street Journal dataset: without separate language models we reach 10.6% WER, while together with a trigram language model, we reach 6.7% WER.

연구 동기 및 목표

주의 기반 seq2seq 모델에서의 과신뢰도와 불완전한 번역을 해결하기 위해.
학습 중에 모델 예측을 정규화하여 일반화 능력과 디코딩 품질을 향상시키기 위해.
아키텍처의 복잡성을 증가시키지 않으면서 외부 언어 모델을 효과적으로 통합하기 위해.
반복 프레임에 대한 주의 집중을 줄이기 위해 커버리지 페널티를 도입하여 빔 서치 디코딩을 최적화하기 위해.
CTC 및 DNN-HMM 시스템과 같은 강력한 베이스라인과 경쟁 가능한 성능을 입증하기 위해.

제안 방법

학습 중에 타겟 분포를 부드럽게 하기 위해 단일어 및 시간적 레이블 스무딩을 적용하여 모델의 과신뢰도를 감소시킴.
빈도가 높은 프레임에 대한 주의 집중을 방지하기 위해 빔 서치 중에 커버리지 페널티를 도입함.
최적의 가설 선택을 위해 조정 가능한 빔 폭, 언어 모델 가중치, 커버리지 임계값을 갖춘 빔 서치 디코더를 사용함.
이전 주의 가중치에 대한 컨볼루션 필터를 적용하여 주의 메커니즘의 정렬 안정성을 향상시킴.
레이블 스무딩과 함께 크로스 엔트로피 손실을 사용하고, 학습률 스케줄링을 적용한 ADAM 최적화 기법을 사용하여 모델을 훈련함.
학습 중에 추가로 웨이트 노이즈와 웨이트 디케이를 정규화 기법으로 적용함.

실험 결과

연구 질문

RQ1seq2seq 모델 예측의 과신뢰도를 어떻게 줄여야 디코딩 다양성을 향상시킬 수 있는가?
RQ2레이블 스무딩이 엔드 투 엔드 음성 인식에서 WER와 모델 일반화 능력에 어떤 영향을 미치는가?
RQ3빈도가 높은 반복 프레임에 대한 주의 집중을 줄이기 위해 빔 서치 중 커버리지 페널티가 어떻게 불완전한 번역과 주의 반복을 줄이는가?
RQ4seq2seq 모델에 언어 모델을 단순히 통합하면 아키텍처의 복잡성 없이도 경쟁 가능한 성능을 달성할 수 있는가?
RQ5국소 정규화 기반 정규화가 전역 정규화 또는 레이티스 기반 훈련보다 얼마나 더 우수한 성능을 내는가?

주요 결과

외부 언어 모델 없이도 WSJ eval92 세트에서 레이블 스무딩으로 WER를 14.2%에서 10.6%로 감소시킴.
삼단어 언어 모델을 사용할 경우, eval92에서 6.7% WER를 달성하여 최신의 DNN-HMM 및 CTC 앙상블 시스템과 동등한 성능을 보임.
커버리지 페널티는 번역의 완전성을 크게 향상시켜 주의 집중 생략 또는 반복으로 인한 오류를 줄임.
시간적 레이블 스무딩(이웃 토큰 기반)은 단일어 스무딩보다 우수한 성능을 보이며, 언어 모델링을 적용한 dev93에서 9.7% WER 달성.
단지 660만 파라미터로도 경쟁 가능한 성능을 달성하여 깊은 아키텍처 대비 효율성을 입증함.
적절하게 튜닝된 빔 서치 파라미터(빔 폭 200, λ=0.5, γ=1.5, τ=0.5)가 언어 모델을 사용할 경우 최적의 성능을 내기 위해 필수적임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.