QUICK REVIEW

[논문 리뷰] Kernel Approximation Methods for Speech Recognition

Avner May, Alireza Bagheri Garakani|arXiv (Cornell University)|2017. 01. 13.

Speech Recognition and Synthesis인용 수 43

한 줄 요약

이 논문은 음성 인식에서 음향 모델링을 위한 확장 가능한 커널 근사 방법을 제안하며, 무작위 푸리에 특징과 특징 선택, 프레임 수준 메트릭 기반 조기 정지와 같은 새로운 기법을 사용한다. 이러한 개선을 통해 커널 모델이 TIMIT, 브로드캐스트 뉴스, IARPA Babel 데이터셋에서 딥 뉴럴 네트워크(DNN)와 비교할 만한 성능을 달성함으로써 단어/문자 오류율 간 격차를 크게 줄였다.

ABSTRACT

We study large-scale kernel methods for acoustic modeling in speech recognition and compare their performance to deep neural networks (DNNs). We perform experiments on four speech recognition datasets, including the TIMIT and Broadcast News benchmark tasks, and compare these two types of models on frame-level performance metrics (accuracy, cross-entropy), as well as on recognition metrics (word/character error rate). In order to scale kernel methods to these large datasets, we use the random Fourier feature method of Rahimi and Recht (2007). We propose two novel techniques for improving the performance of kernel acoustic models. First, in order to reduce the number of random features required by kernel models, we propose a simple but effective method for feature selection. The method is able to explore a large number of non-linear features while maintaining a compact model more efficiently than existing approaches. Second, we present a number of frame-level metrics which correlate very strongly with recognition performance when computed on the heldout set; we take advantage of these correlations by monitoring these metrics during training in order to decide when to stop learning. This technique can noticeably improve the recognition performance of both DNN and kernel models, while narrowing the gap between them. Additionally, we show that the linear bottleneck method of Sainath et al. (2013) improves the performance of our kernel models significantly, in addition to speeding up training and making the models more compact. Together, these three methods dramatically improve the performance of kernel acoustic models, making their performance comparable to DNNs on the tasks we explored.

연구 동기 및 목표

대규모 자동 음성 인식(ASR) 작업에서 커널 방법의 확장성 한계를 해결하기 위해.
표준 ASR 벤치마크에서 커널 기반 음향 모델과 딥 뉴럴 네트워크(DNN) 간의 성능 격차를 해소하기 위해.
일반화 능력을 훼손하지 않으면서 커널 모델의 효율성과 정확도를 향상시키는 실용적인 기법을 개발하기 위해.
프레임 수준 메트릭이 인식 오류와 상관관계가 있는지 확인하여 효과적인 조기 정지를 이끌 수 있음을 보여주어, 커널 및 DNN 모델 양쪽 모두의 성능을 향상시키기 위해.

제안 방법

논문은 Rahimi와 Recht(2007)의 무작위 푸리에 특징 방법을 활용하여 커널 함수를 근사함으로써 대규모 ASR 데이터셋에서의 효율적 학습을 가능하게 한다.
학습된 가중치를 기반으로 유용한 무작위 특징을 반복적으로 선택하는 새로운 특징 선택 알고리즘을 제안하며, 이는 모델 크기와 학습 시간을 감소시킨다.
토큰 오류율(TER)과 강하게 상관관계가 있는 프레임 수준 메트릭을 도입하여 학습 중 모니터링함으로써 조기 정지를 유도한다.
Sainath 등(2013a)의 선형 병목 기법을 커널 모델에 적용하여 성능 향상과 모델의 압축성을 향상시켰다.
특징 선택 과정에 기반하여 새로운 커널 함수를 도입함으로써 입력 수준에서의 비선형 특징 선택을 가능하게 하였다.
무작위 특징 근사, 특징 선택, 메트릭 기반 조기 정지를 통합하여 커널 모델의 성능을 향상시켰다.

실험 결과

연구 질문

RQ1무작위 특징 근사를 통해 커널 방법을 대규모 ASR 작업에 효과적으로 확장할 수 있는가?
RQ2무작위 특징에 대한 특징 선택이 성능을 유지하거나 향상시키면서도 모델 크기와 학습 시간을 줄일 수 있는가?
RQ3인식 오류(TER)와 강하게 상관관계가 있는 프레임 수준 메트릭이 표준 교차 엔트로피 손실보다 더 나은 조기 정지를 가능하게 하는가?
RQ4선형 병목 기법이 DNN에 적용되었을 때와 마찬가지로 커널 음향 모델의 성능을 향상시킬 수 있는가?
RQ5커널 모델이 표준 ASR 벤치마크에서 DNN과 비교해 어느 정도의 성능을 달성할 수 있는가?

주요 결과

TIMIT 데이터셋에서 최고의 커널 모델은 단어 오류율(WER) 31.0%를 기록했으며, 최고의 DNN 모델과 동일한 31.0%를 달성했다.
Bengali(IARPA-babel103b) 데이터셋에서 커널 모델은 문자 오류율(CER) 30.0%를 기록했고, 최고의 DNN 모델 역시 30.0%였다.
50시간 분량의 브로드캐스트 뉴스(BN-50) 서브셋에서 커널 모델은 WER 50.0%를 기록했고, 최고의 DNN는 49.0%였다.
Cantonese(IARPA-babel101) 데이터셋에서 커널 모델은 CER 44.0%를 달성했으며, 최고의 DNN 성능과 정확히 일치했다.
특징 선택, 프레임 수준 메트릭 기반 조기 정지, 선형 병목 기법의 조합으로 커널 모델과 DNN 모델 간의 WER 격차가 데이터셋 평균 20%까지 감소했다.
조기 정지를 위한 사용된 프레임 수준 메트릭은 커널 및 DNN 모델 양쪽 모두의 TER 향상에 뚜렷한 기여를 하였으며, 이는 학습을 인식 목표에 맞게 조율하는 데 유용함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.