QUICK REVIEW

[논문 리뷰] Achieving Human Parity in Conversational Speech Recognition

Wayne Xiong, Jasha Droppo|arXiv (Cornell University)|2016. 10. 17.

Speech Recognition and Synthesis참고 문헌 56인용 수 478

한 줄 요약

이 논문은 NIST 2000 CTS에서 인간의 실수를 측정하고, LFMMI를 가진 CNN/LSTM 기반 음향 모델, 고급 언어 모델 및 시스템 결합이 Switchboard 및 CallHome 과제에서 거의 인간 또는 인간-동등한 WER를 달성함을 시연합니다.

ABSTRACT

Conversational speech recognition has served as a flagship speech recognition task since the release of the Switchboard corpus in the 1990s. In this paper, we measure the human error rate on the widely used NIST 2000 test set, and find that our latest automated system has reached human parity. The error rate of professional transcribers is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations. In both cases, our automated system establishes a new state of the art, and edges past the human benchmark, achieving error rates of 5.8% and 11.0%, respectively. The key to our system's performance is the use of various convolutional and LSTM acoustic model architectures, combined with a novel spatial smoothing method and lattice-free MMI acoustic training, multiple recurrent neural network language modeling approaches, and a systematic use of system combination.

연구 동기 및 목표

NIST 2000 Switchboard 및 CallHome 데이터 세트에서 인간 전사 오차를 정량화한다.
대화 음성 인식을 위한 CNN/LSTM 음향 모델을 개발하고 최적화한다.
LFMMI 학습 및 고급 언어 모델링을 통합하여 WER을 향상시킨다.
상보 이득을 극대화하기 위한 시스템 조합 방법을 평가한다.
동일한 테스트 세트에서 기계 성능과 전문 인간 전사를 비교한다.

제안 방법

i-vector 화자 적응을 갖춘 CNN 변형(VGG, ResNet, LACE) 및 BLSTM/LSTM 음향 모델을 학습한다.
BLSTM 성능 향상을 위해 음향 활성에 정규화항으로 공간 평활화를 적용한다.
혼합 이력 음향 단위 언어 모델을 사용한 LFMMI로 학습한다.
정방향 및 역방향 모델을 포함하여 대형 비잘려진 N-그램 LM과 신경망 LM(RNN-LMs 및 LSTM-LMs)을 사용해 재점수를 수행한다.
상보 이득을 극대화하기 위한 혼동-네트워크 접근법으로 그리디 선택 및 가중치 최적화를 통한 시스템 조합을 수행한다.
CNTK를 사용해 확장 가능한 다중 GPU 학습과 효율적인 분산 최적화를 위한 1-bit SGD를 활용한다.

실험 결과

연구 질문

RQ1NIST eval 2000 Switchboard(SWB) 및 CallHome(CH) 구간에서 인간 전사 오차율은 얼마인가?
RQ2LFMMI 학습, i-vector 적응 및 고급 언어 모델링을 갖춘 CNN/LSTM 기반 음향 모델이 이 CTS 벤치마크에서 인간 동등성을 능가할 수 있는가?
RQ3공간 평활화, i-vector 조건화 및 lattice-free 학습이 WER 감소에 어느 정도 기여하는가?
RQ4시스템 조합과 LM 재점수가 전체 성능에 미치는 영향은 무엇인가?
RQ5여러 신경망 구조와 재점수 전략을 사용할 때 대화형 CTS에서 기계 성능이 인간 성능에 얼마나 근접할 수 있는가?

주요 결과

NIST 2000 Switchboard의 인간 오차는 전문 트랜스크리버를 사용했을 때 5.9%이고 CallHome은 11.3%이다.
자동 시스템은 Switchboard에서 5.8% WER, CallHome에서 11.0%를 달성하여 인간 성능을 소폭 상회한다.
공간 평활화가 초기 BLSTM 실험에서 상대적으로 약 5–10%의 WER 감소를 가져왔다.
i-vector 화자 적응과 LFMMI 학습은 모델 전반에 걸쳐 추가로 7–10%의 상대적 WER 감소를 달성한다.
여러 BLSTM 변형 및 음향 모델의 최종 시스템 조합은 11.0% CH 및 5.8% SWB를 달성하여 인간 벤치마크에 도달하거나 이를 능가한다.
500-best ResNet 가설에 대한 Oracle WER는 2.7% (SWB) 및 4.9% (CH)로, 디코딩/검색 개선을 통한 추가 이득의 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.