QUICK REVIEW

[논문 리뷰] The CAPIO 2017 Conversational Speech Recognition System

Kyu J. Han, Akshay Chandrashekaran|arXiv (Cornell University)|2017. 12. 29.

Speech Recognition and Synthesis참고 문헌 5인용 수 77

한 줄 요약

CAPIO 2017 시스템은 densely connected LSTMs(dense LSTMs)을 도입하고 파라미터 평균화에 의한 간단한 음향 모델 적응을 제시하여 NIST 2000 Hub5 English에서 최상위 WER를 달성합니다. 또한 TED-LIUM과 LibriSpeech 데이터에서 비통신 전화 데이터에서도 강력한 결과를 보여줍니다.

ABSTRACT

In this paper we show how we have achieved the state-of-the-art performance on the industry-standard NIST 2000 Hub5 English evaluation set. We explore densely connected LSTMs, inspired by the densely connected convolutional networks recently introduced for image classification tasks. We also propose an acoustic model adaptation scheme that simply averages the parameters of a seed neural network acoustic model and its adapted version. This method was applied with the CallHome training corpus and improved individual system performances by on average 6.1% (relative) against the CallHome portion of the evaluation set with no performance loss on the Switchboard portion. With RNN-LM rescoring and lattice combination on the 5 systems trained across three different phone sets, our 2017 speech recognition system has obtained 5.0% and 9.1% on Switchboard and CallHome, respectively, both of which are the best word error rates reported thus far. According to IBM in their latest work to compare human and machine transcriptions, our reported Switchboard word error rate can be considered to surpass the human parity (5.1%) of transcribing conversational telephone speech.

연구 동기 및 목표

대화식 음성 인식을 위한 심층 음향 모델에서 그래디언트 소실을 완화하기 위해 밀집 연결 LSTM 아키텍처를 개발한다.
시드 모델과 적응 버전의 매개변수 평균화를 기반으로 한 확장 가능한 음향 모델 적응안을 제안한다.
다양한 전화계(cm)에서의 다중 폰셋 및 망설임 모델링을 통해 시스템 강건성을 개선하기 위한 밀집 LSTM 및 CNN-bLSTM의 다양한 음향 모델을 탐구한다.
전화 통신(Switchboard/CallHome) 및 비전화 데이터(TED-LIUM/LibriSpeech)에서의 광범위한 실험을 통해 시스템 성능을 입증한다.
밀집 아키텍처와 시스템 결합이 표준 벤치마크에서 최첨단 WER을 달성한다.

제안 방법

그래디언트 소실을 방지하기 위해 이전 모든 계층의 출력을 연결하는 밀집 블록의 출력을 연결하는 밀집 연결 LSTM 아키텍처(dense LSTMs)를 제안한다.
LF-MMI 학습 및 SAT/fMLLR 전처리와 함께 평가된 두 가지 밀집 LSTM 변형인 dense TDNN-LSTM과 dense CNN-bLSTM을 구현한다.
적응 중 시드 모델의 매개변수와 적응 버전의 매개변수를 평균화하는 음향 모델 적응을 적용한다(적응 중 GPU 간 매개변수 평균화).
여러 폰셋(PronLex, CMU, MSU) 및 망설임 모델링(2 대 11 망설임)을 사용하여 다양한 CNN-bLSTMs를 만들고 구성 간 훈련 및 비교를 수행한다.
4-그램 및 RNN LM을 학습하고 다양한 시스템 간의 격자 기반 최소 Bayes 위험 시스템 결합을 수행한다.

실험 결과

연구 질문

RQ1밀집 연결 LSTM이 그래디언트 소실 없이 더 깊은 LSTM 네트워크를 가능하게 하여 잔차 연결보다 WER을 개선할 수 있는가?
RQ2간단한 매개변수 평균화 적응이 Switchboard 성능을 해치지 않으면서 CallHome과 같은 도메인 특화 성능을 안정적으로 향상시키는가?
RQ3다양한 밀집 LSTM 및 CNN-bLSTM 구성이 Switchboard와 CallHome에서 다중 폰셋 및 망설임 모델링에 따라 어떻게 다른가?
RQ4다양한 모델의 시스템 결합이 Hub5 English 벤치마크에서 최첨단 WER 달성에 어떤 영향을 미치는가?
RQ5제안된 밀집 아키텍처가 TED-LIUM 및 LibriSpeech와 같은 비전화 데이터에 일반화되는가?

주요 결과

밀집 LSTM은 계층이 늘어날수록 지속적으로 성능이 향상되며 잔차 LSTM보다 10 계층을 넘었을 때 더 낮은 WER을 달성한다.
Dense CNN-bLSTM 및 dense TDNN-LSTM 변형은 비밀집 기준선 대비 상당한 WER 감소를 보이며 PronLex/2 망설임에서 강력한 결과를 낸다.
매개변수 평균화를 이용한 음향 모델 적응은 CallHome WER을 평균적으로 약 5% 상대적으로 개선하는 한편 Switchboard 성능을 유지한다.
여덟 가지 다양한 시스템의 시스템 결합은 이 구성에서 당시에 보고된 최고치인 5.0% Switchboard 및 9.1% CallHome WER을 달성한다.
RNN LM 재스코어링은 구성 전반에서 일관된 개선을 제공하며 특정 밀집 모델에서 Switchboard WER의 상대적 감소가 최대 8%에 이른다.
비전화 데이터(TED-LIUM LibriSpeech)의 경우, 해당 코퍼스에 대해 밀집 아키텍처가 시스템을 결합했을 때 최첨단 결과에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.