QUICK REVIEW

[논문 리뷰] Developing Acoustic Models for Automatic Speech Recognition in Swedish

Giampiero Salvi|arXiv (Cornell University)|2024. 04. 25.

Speech Recognition and Synthesis참고 문헌 4인용 수 5

한 줄 요약

논문은 SpeechDat Swedish 코퍼스에서 학습된 HMM을 이용해 화자 독립적인 스웨덴 음향 모델을 구축하고, 모노폰(monophone)과 트라이폰(triphone) 구성을 다양한 컨텍스트 확장 및 가우시안 혼합으로 비교하며, 200명의 화자 하위집합에서 평가한다.

ABSTRACT

This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.

연구 동기 및 목표

대규모이고 다양한 화자 데이터베이스를 사용하여 숫자, 자연수, 그리고 더 큰 어휘를 포함하는 다양한 작업에 적합한 스웨덴 음성의 강건한 음향 모델을 개발한다.
성능 트레이드를 이해하기 위해 컨텍스트 독립적(HMMs) 과 컨텍스트 종속적(triphone) HMM을 모두 탐구한다.
린 렉시콘 구성의 차이가 인식 정확도에 미치는 영향을 평가한다 (retroflex 음소 포함 여부).
성별, 연령, 방언 지역, 잡음 조건으로 정의된 화자 하위집합에 걸친 모델 일반화 성능을 평가한다.
외부 데이터베이스(Waxholm)에서의 테스트를 통해 모델의 유연성을 입증하고 Norwegian SpeechDat 결과와 비교한다.

제안 방법

목표 스웨덴 음소와 비대상 음성(노이즈, 침묵, 단어 경계, garbage)을 포함한 음향 모델을 HMM 기반으로 학습한다.
모노폰과 트라이폰 토폴로지로 실험한다; 파열음(plosives)은 4-발화 상태(HMMs)를 사용하고, 다른 음소는 3-발화 상태(HMMs)를 사용한다.
트라이폰 모델에 대해 단어 내 컨텍스트 확장과 단어 간 컨텍스트 확장을 테스트하고, 자료 희소성을 관리하기 위해 트리 클러스터링을 적용한다.
적합도와 일반화를 개선하기 위해 가우시안 혼합(2, 4, 8 항)을 사용해 출력 분포를 향상시킨다.
레이블링된 음소 전사를 사용하여 내장 Baum-Welch로 모델을 학습하고, training에 garbage 및 경계 모델을 포함시킨다.
다이나믹 프로그래밍 기반 정렬을 사용해 올바른 단어와 정확도를 계산하여 평가한다.

실험 결과

연구 질문

RQ1 telephone 채널 조건에서 모노폰 대 트라이폰 음향 모델은 스웨덴 인식 정확도에서 어떻게 비교되는가?
RQ2트라이폰 모델의 단어 내 컨텍스트 확장과 단어 간 컨텍스트 확장이 성능에 어떤 영향을 주는가?
RQ3렉시콘에 retroflex 음소를 포함하는 것이 사용된 데이터셋과 과제에서 인식 정확도를 개선하는가 아니면 악화시키는가?
RQ4가우시안 혼합 항의 수(2, 4, 8)가 모노폰 및 트라이폰 모델의 인식 성능에 어떤 영향을 미치는가?
RQ5성별, 연령, 방언, 지역 변화로 정의된 화자 하위집합에 대해 개발된 모델의 견고성은 어떤가?
RQ6개발된 스웨덴 음향 모델이 다른 데이터셋(Waxholm)으로 일반화될 수 있으며 Norwegian SpeechDat 결과와 어떻게 비교되는가?

주요 결과

Experiment	Corr (mb)	Acc (mb)	Corr (nmb)	Acc (nmb)	Corr (ctba)	Acc (ctba)	Corr (cntba)	Acc (cntba)	Corr (ctnba)	Acc (ctnba)	Corr (cntnba)
mb	69.4	66.4	68.1	63.1	N/A	N/A	N/A	N/A	N/A	N/A	N/A
nmb	68.1	63.1	71.5	67.9	N/A	N/A	N/A	N/A	N/A	N/A	N/A
ctba	89.5	87.4	90.7	88.5	90.8	88.6	N/A	N/A	N/A	N/A	N/A
cntba	89.1	86.4	90.3	88.1	90.5	88.3	N/A	N/A	N/A	N/A	N/A
ctnba	86.1	81.8	87.8	84.0	88.4	84.8	N/A	N/A	N/A	N/A	N/A
cntnba	86.8	84.2	88.4	86.1	88.9	86.5	N/A	N/A	N/A	N/A	N/A

전체 최적 정확도는 내부 컨텍스트 확장된 트라이폰 모델에서 8 Gaussian mixtures를 사용했을 때 88.6%로 달성되었다.
모노폰 모델은 Gaussian mixtures가 많아질수록(4~8) 성능이 향상되나, 트라이폰의 이득은 더 많은 혼합항에서 작아진다.
retroflex 음소를 제외한 모델이 일반적으로 retroflex 음소를 포함한 모델보다 주어진 과제와 렉시콘에서 더 나은 성능을 보인다.
단어 간 컨텍스트 확장은 이 과제에서 덜 견고한 반면, 단어 내 컨텍스트 확장은 문장 간 컨텍스트가 제한된 상황(예: 숫자)에서 더 높은 정확도를 제공한다.
200명의 화자 평가에서 대부분의 화자는 높은 정확도를 달성하지만, 일부는 ‘goats’로 불려 현저히 낮은 성능을 보이며, 지역과 방언에 따라 차이가 있다(예: Bergslagen 지역은 양호, 남부 스웨덴 지역은 도전적).
Waxholm에서의 테스트는 과제 차이에도 불구하고 모델의 유연성과 경쟁력 있는 성능을 시사하며, Norwegian 결과와는 대체로 비슷하되 직접 비교는 어렵다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.