QUICK REVIEW

[논문 리뷰] Full Persian Vowel recognition with MFCC and ANN on PCVC speech dataset

Saber Malekzadeh, Mohammad Hossein Gholizadeh|arXiv (Cornell University)|2018. 01. 01.

Speech Recognition and Synthesis참고 문헌 6인용 수 4

한 줄 요약

이 논문은 새로 제안된 PCVC 음성 데이터셋을 바탕으로 멜 주파수 케프스트럼 계수(MFCC)와 다층 퍼셉트론(MLP) 신경망을 사용하여 페르시아어 모음 인식 시스템을 제안한다. 방법은 에너지 임계값을 기반으로 모음 세그먼트를 추출하고, 이를 MFCC 특징 추출을 통해 처리하여 일부 페르시아어 모음에서 최대 100%의 인식 정확도를 달성하였으며, 모든 6개의 모음 평균 인식률은 94.3%였다.

ABSTRACT

In this paper a new method for recognition of consonant-vowel phonemes combination on a new Persian speech dataset titled as PCVC (Persian Consonant-Vowel Combination) is proposed which is used to recognize Persian phonemes. In PCVC dataset, there are 20 sets of audio samples from 10 speakers which are combinations of 23 consonant and 6 vowel phonemes of Persian language. In each sample, there is a combination of one vowel and one consonant. First, the consonant phoneme is pronounced and just after it, the vowel phoneme is pronounced. Each sound sample is a frame of 2 seconds of audio. In every 2 seconds, there is an average of 0.5 second speech and the rest is silence. In this paper, the proposed method is the implementations of the MFCC (Mel Frequency Cepstrum Coefficients) on every partitioned sound sample. Then, every train sample of MFCC vector is given to a multilayer perceptron feed-forward ANN (Artificial Neural Network) for training process. At the end, the test samples are examined on ANN model for phoneme recognition. After training and testing process, the results are presented in recognition of vowels. Then, the average percent of recognition for vowel phonemes are computed.

연구 동기 및 목표

새로운 음소 레이블이 부여된 음성 데이터셋을 활용하여 페르시아어의 강력한 음소 인식 시스템을 개발하기 위해.
MFCC와 인공신경망(ANN)이 페르시아어 모음 음소 인식에 효과적으로 활용될 수 있는지 평가하기 위해.
페르시아어와 같이 자원이 부족한 언어에서 낮은 음소 인식 정확도 문제를 제어된, 최소한의 복잡도를 가진 데이터셋을 활용하여 해결하기 위해.
에너지 기반 세그먼테이션과 스펙트럼 특징 추출을 통해 모음 인식 성능을 크게 향상시킬 수 있음을 보여주기 위해.

제안 방법

23개의 자음과 6개의 모음으로 구성된 PCVC 데이터셋을 사용하였으며, 10명의 피험자로부터 수집된 각 2초짜리 음성 샘플은 0.5초의 음성과 1.5초의 침묵을 포함한다.
모음 세그먼트는 에너지 임계값을 이용해 추출되었으며, 침묵 수준보다 두 배 이상의 강도를 가지는 세그먼트로 모음을 식별하였다.
MFCC 특징 추출은 20ms 윈도우와 10ms 겹침을 사용하여 50개의 케프스트럼 계수와 100개의 주파수 대역을 생성하였다.
은닉층에 50개의 뉴런을 가진 3층 피드포워드 MLP를 사용하였으며, 스케일된 공역 기반 경사 하강법과 평균 제곱오차(MSE) 손실 함수를 사용해 학습하였다.
모델은 모음 세그먼트의 MFCC 벡터를 기반으로 학습되었고, 테스트는 학습에 포함되지 않은 다른 피험자에게서 수행되어 일반화 능력을 평가하였다.
오차와 가중치 감소 간 균형을 맞추기 위해 정규화 비율을 0.5로 설정하였으며, 학습률은 0.1로 설정하였다.

실험 결과

연구 질문

RQ1MFCC와 ANN을 조합하여 최소한의 복잡도를 가진 데이터셋에서 높은 정확도의 페르시아어 모음 인식을 달성할 수 있는가?
RQ2에너지 기반 모음 세그먼테이션은 페르시아어 음성에서 인식 성능을 어떻게 향상시키는가?
RQ3이 방법을 사용할 경우 개별 페르시아어 모음의 인식 정확도는 어느 정도 달성될 수 있는가?
RQ4학습 데이터에 포함되지 않은 다른 피험자에게서 시스템의 일반화 능력은 어떠한가?
RQ5PCVC 데이터셋의 음소 수준 레이블링은 비음소 기반 데이터셋에 비해 학습과 평가에 어떤 정도 향상 효과를 제공하는가?

주요 결과

제안된 시스템은 페르시아어 모음 /æ/ (اول)과 /e/ (ارد)에서 각각 100%의 인식 정확도를 달성하여 이 두 음소에 대해 최적의 모델 성능를 보였다.
모음 /ʊ/ (او)와 /i/ (ای)는 각각 96%의 정확도로 다수의 음소에서 뛰어난 성능를 보였다.
모음 /o/ (اردو)는 92%의 인식 정확도를 기록하였으며, 6개의 모음 중에서 가장 낮았지만 평균 이상의 성능를 확보하였다.
모든 6개의 페르시아어 모음에 대한 평균 인식률은 94.3%로, 시스템의 높은 종합적 효과를 입증하였다.
학습에 포함되지 않은 피험자에게도 잘 일반화되어, 다양한 피험자 간의 모음 인식에서 뛰어난 견고성을 확인하였다.
에너지 기반 세그먼테이션과 함께 MFCC를 사용하는 것이 혼합된 자음-모음 발화에서 모음 영역을 효과적으로 분리하는 데 유용함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.