[논문 리뷰] EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding
이 논문은 음성 인식을 위한 엔드 투 엔드 프레임워크인 EESEN을 소개한다. 이는 음성 모델링을 위해 연결주의 시간 분류(CTC)를 사용하는 깊이 있는 양방향 RNN과 WFST 기반 디코딩을 통해 어휘 및 언어 모델을 효율적으로 통합한다. 하이브리드 HMM/DNN 시스템과 유사한 최고 수준의 WER 성능을 달성하면서도 디코딩 속도를 3.2배 빠르게 하고 그래프 크기를 45% 줄여, 엔드 투 엔드 ASR 연구를 위한 단순화된 오픈소스 파이프라인을 제공한다.
The performance of automatic speech recognition (ASR) has improved tremendously due to the application of deep neural networks (DNNs). Despite this progress, building a new ASR system remains a challenging task, requiring various resources, multiple training stages and significant expertise. This paper presents our Eesen framework which drastically simplifies the existing pipeline to build state-of-the-art ASR systems. Acoustic modeling in Eesen involves learning a single recurrent neural network (RNN) predicting context-independent targets (phonemes or characters). To remove the need for pre-generated frame labels, we adopt the connectionist temporal classification (CTC) objective function to infer the alignments between speech and label sequences. A distinctive feature of Eesen is a generalized decoding approach based on weighted finite-state transducers (WFSTs), which enables the efficient incorporation of lexicons and language models into CTC decoding. Experiments show that compared with the standard hybrid DNN systems, Eesen achieves comparable word error rates (WERs), while at the same time speeding up decoding significantly.
연구 동기 및 목표
- GMM, 강제 정렬, 전문가가 수작업으로 조정한 초모수를 필요로 하는 전통적인 하이브리드 HMM/DNN ASR 시스템의 복잡한 다단계 파이프라인을 단순화하기 위해.
- CTC를 사용하여 음성 프레임과 문맥 독립적 레이블(음소 또는 문자) 간의 정렬을 자동으로 추론함으로써 GMM이나 프레임 수준의 레이블에 의존하지 않고도 엔드 투 엔드 음성 인식을 가능하게 하기 위해.
- WFST 조합을 통해 어휘 및 언어 모델을 직접 통합함으로써 효율적이고 확장 가능한 디코딩 방법을 제공하기 위해.
- 엔드 투 엔드 ASR 연구를 위한 공통의 오픈소스 벤치마킹 플랫폼을 구축하여 모델 구성 및 디코딩 방법의 다양성을 줄이기 위해.
- 문맥 독립적 타겟(음소/문자)을 사용하는 엔드 투 엔드 시스템이 강력한 하이브리드 베이스라인의 성능을 따라하거나 초월할 수 있는지 입증하기 위해.
제안 방법
- CTC 목적 함수를 사용하여 음성-레이블 시퀀스를 모델링하기 위해 장기 단기 기억(LSTM) 유닛을 사용하는 깊이 있는 양방향 RNN을 훈련한다.
- CTC를 사용하여 음성 프레임과 문맥 독립적 레이블(음소 또는 문자) 간의 정렬을 자동으로 추론함으로써 강제 정렬이나 GMM이 필요 없도록 한다.
- CTC 출력, 어휘 및 언어 모델을 가중치가 부여된 유한 상태 전이기계(WFST)로 표현하여 단일 디코딩 그래프로 효율적으로 조합한다.
- 통합된 언어 모델링을 갖춘 레이티스 기반 디코딩을 수행하기 위해 빔 서치를 조합된 WFST 그래프에 적용한다.
- 수천 개의 세노네에서 수십 개의 음소/문자로 상태 수를 줄여 디코딩 복잡도를 크게 낮춘다.
- 혼합 정밀도 훈련과 최적화된 메모리 사용을 통해 GPU 기반으로 시스템을 구현하여 훈련 및 추론 속도를 가속화한다.
실험 결과
연구 질문
- RQ1단지 RNN과 CTC만을 사용하는 엔드 투 엔드 ASR 시스템이 강력한 하이브리드 HMM/DNN 시스템과 유사한 성능을 달성할 수 있는가?
- RQ2속도나 정확도를 희생시키지 않고 CTC 기반 디코딩에 어휘 및 언어 모델을 효율적이고 효과적으로 통합할 수 있는가?
- RQ3통합된 오픈소스 프레임워크가 다양한 연구 팀 간의 엔드 투 엔드 ASR 시스템 개발 및 벤치마킹을 단순화할 수 있는가?
- RQ4문맥 의존 상태 대신 문맥 독립적 타겟(예: 음소 또는 문자)을 사용하면 더 빠른 디코딩과 메모리 사용 감소가 이루어지는가?
- RQ5GMM과 다단계 훈련을 제거함으로써 ASR 파이프라인의 단순화가 정확도를 유지하거나 향상시키는 데 기여할 수 있는가?
주요 결과
- 음소 기반 EESEN 시스템은 삼중어휘 언어 모델을 사용하여 7.87%의 단어 오류율(WER)을 기록했으며, 강력한 하이브리드 HMM/DNN 베이스라인(7.14% WER)과 유사한 성능을 달성했고, 파라미터 수는 8.5M(하이브리드 시스템의 9.2M 대비)로 더 적었다.
- EESEN의 디코딩 속도는 하이브리드 HMM/DNN 시스템 대비 3.2배 빠르며, 실시간 인자(0.64)는 하이브리드 시스템의 2.06보다 낮아, 수천 개의 세노네에서 수십 개의 음소로 상태 수가 급격히 감소한 덕분이었다.
- EESEN의 디코딩 그래프 크기(263MB)는 하이브리드 시스템에서 사용하는 HCLG 그래프(480MB)보다 45% 작아 디스크 스토리지 요구량이 감소했다.
- 문자 기반 EESEN 시스템은 재학습된 삼중어휘 언어 모델을 사용하여 7.34%의 WER를 기록했으며, 동일한 WSJ 벤치마크에서 기존 엔드 투 엔드 시스템인 Graves 등(8.7%)과 Hannun 등(14.1%)을 능가했다.
- EESEN의 결과는 GMM이나 하이브리드 DNN 모델의 간섭 없이 완전히 엔드 투 엔드 파이프라인을 통해 도출되었으며, 이는 이전 연구에서 n-best 재정렬을 위해 하이브리드 모델을 사용한 것과는 다름을 의미한다.
- EESEN의 오픈소스 배포는 향후 연구를 위한 표준화되고 확장 가능한 플랫폼을 제공하여 엔드 투 엔드 ASR 시스템 간의 공정한 비교를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.