QUICK REVIEW

[논문 리뷰] Increasing Deep Neural Network Acoustic Model Size for Large Vocabulary Continuous Speech Recognition

Andrew L. Maas, Awni Hannun|arXiv (Cornell University)|2014. 06. 30.

Speech Recognition and Synthesis참고 문헌 11인용 수 20

한 줄 요약

이 논문은 대규모 어휘 연속 음성 인식에서 분산 GPU 환경을 사용하여 딥 네트워크(Deep Neural Network, DNN) 음성 모델의 스케일링을 조사한다. 충분한 훈련 데이터가 확보된 경우 모델 크기를 증가시키면 단어 오류율(Word Error Rate, WER)이 크게 감소함을 발견하였으며, 특히 2,000시간 분량의 Fisher 코퍼스에서 이러한 경향이 두드러졌다. 이는 훈련 데이터가 풍부할 경우 더 큰 모델이 직접적인 성능 향상을 가져온다는 것을 입증한다.

ABSTRACT

Deep neural networks (DNNs) are now a central component of nearly all state-of-the-art speech recognition systems. Part of the promise of DNNs is their ability to represent increas-ingly complex functions as the number of DNN parameters increases. This paper investigates the performance of DNN-based hybrid speech recognition systems as DNN model size and training data increase. Using a distributed GPU architec-ture, we train DNN acoustic models roughly an order of mag-nitude larger than those typically found in speech recognition systems. DNNs of this scale achieve substantial reductions in final system word error rate despite training with a loss func-tion not tightly coupled to system error rate. However, training word error rate improvements do not translate to large improve-ments in test set word error rate for systems trained on the 300 hour Switchboard conversational speech corpus. Scaling DNN acoustic model size does prove beneficial on the Fisher 2,000 hour conversational speech corpus. Our results show that with sufficient training data, increasing DNN model size is an effec-tive, direct path to performance improvements. Moreover, even smaller DNNs benefit from a larger training corpus. Index Terms: speech recognition, neural networks, acoustic modeling

연구 동기 및 목표

DNN 음성 모델 크기를 증가시킬 경우 음성 인식 성능에 어떤 영향을 미치는지 조사하는 것.
오차율에 연관되지 않은 손실 함수를 사용해 훈련하더라도, 모델 크기가 증가함에 따라 시스템 성능 향상이 이루어지는지 평가하는 것.
더 큰 모델이 제한된 데이터 코퍼스와 대량의 데이터 코퍼스에서 각각 어떤 성능 향상을 가져오는지 확인하는 것.
하이브리드 DNN-HMM 시스템에서 모델 크기와 훈련 데이터 규모 간의 상호작용을 평가하는 것.

제안 방법

일반적인 음성 인식 시스템보다 약 10배 정도 더 큰 모델 크기를 확보하기 위해 분산 GPU 아키텍처를 사용해 DNN 음성 모델을 훈련시켰다.
직접적으로 단어 오류율을 최적화하지 않는 표준 DNN 훈련 목표 함수를 사용하여, 증가하는 모델 용량 하에서의 일반화 성능을 평가했다.
300시간 분량의 Switchboard와 2,000시간 분량의 Fisher 대화형 음성 데이터셋이라는 두 가지 코퍼스 간 성능을 비교했다.
모델 크기와 훈련 데이터 확장을 고려한 후 시스템 수준의 성능 평가를 위해 테스트 세트에서 단어 오류율(WER)을 측정했다.
음성 인식을 위해 하이브리드 DNN-HMM 아키텍처를 유지하였으며, 주로 음성 모델 향상에 초점을 맞췄다.

실험 결과

연구 질문

RQ1DNN 음성 모델 크기를 증가시키면 대규모 어휘 연속 음성 인식에서 측정 가능한 단어 오류율 감소를 이끌어내는가?
RQ2훈련 세트에서의 WER 향상 정도가 테스트 세트 성능 향상으로 얼마나 잘 이어지는가?
RQ3모델 확장의 효과는 가용 훈련 데이터 크기에 따라 어떻게 달라지는가?
RQ4직접적으로 시스템 수준 오류율과 연관되지 않은 손실 함수로 훈련된 대규모 DNN도 더 나은 성능을 달성할 수 있는가?

주요 결과

WER에 직접 최적화되지 않은 손실 함수를 사용함에도 불구하고, DNN 모델 크기를 확장함으로써 단어 오류율이 상당히 감소했다.
300시간 분량의 Switchboard 코퍼스에서는 훈련 세트에서의 WER 향상이 테스트 세트에서의 성능 향상으로 이어지지 않았으며, 이는 데이터 제약이 확장 성능 향상의 이점을 방해했음을 시사한다.
2,000시간 분량의 Fisher 코퍼스에서는 모델 크기를 증가시킴에 따라 테스트 세트에서의 단어 오류율이 명확하고 측정 가능한 수준으로 향상되었으며, 이는 데이터 용량이 모델 확장의 성과를 가능하게 한다는 것을 보여준다.
작은 DNN 모델조차도 더 큰 훈련 코퍼스에서 유의미한 성능 향상을 보였으며, 이는 데이터와 모델 확장이 상호보완적임을 시사한다.
결과적으로 충분한 훈련 데이터가 확보된 경우 모델 크기를 증가시키는 것이 직접적이고 효과적인 성능 향상 경로임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.