QUICK REVIEW

[논문 리뷰] Wavelet-Based Mel-Frequency Cepstral Coefficients for Speaker Identification using Hidden Markov Models

Mahmoud I. Abdalla, Hanaa S. Ali|arXiv (Cornell University)|2010. 03. 29.

Speech Recognition and Synthesis참고 문헌 10인용 수 28

한 줄 요약

이 논문은 음성 인식 환경에서 잡음이 있는 조건에서도 성능을 향상시키기 위해 은폐 마르코프 모델(HMM)을 사용한 발성자 식별을 위한 웨이블릿 기반 멜 주파수 해석 계수(MFCC) 방법을 제안한다. 이는 이산 웨이블릿 변환의 시간-주파수 다중 해상도 특성을 활용하여 특징 추출을 향상시킨다. 정상 조건에서는 99.3%의 인식률을 달성하였고, 20 dB SNR의 백색 가우시안 잡음 조건에서는 97.3%의 인식률을 기록하여 기존의 MFCC보다 잡음 조건에서 5.3%포인트 높은 성능을 보였다.

ABSTRACT

To improve the performance of speaker identification systems, an effective and robust method is proposed to extract speech features, capable of operating in noisy environment. Based on the time-frequency multi-resolution property of wavelet transform, the input speech signal is decomposed into various frequency channels. For capturing the characteristic of the signal, the Mel-Frequency Cepstral Coefficients (MFCCs) of the wavelet channels are calculated. Hidden Markov Models (HMMs) were used for the recognition stage as they give better recognition for the speaker's features than Dynamic Time Warping (DTW). Comparison of the proposed approach with the MFCCs conventional feature extraction method shows that the proposed method not only effectively reduces the influence of noise, but also improves recognition. A recognition rate of 99.3% was obtained using the proposed feature extraction technique compared to 98.7% using the MFCCs. When the test patterns were corrupted by additive white Gaussian noise with 20 dB S/N ratio, the recognition rate was 97.3% using the proposed method compared to 93.3% using the MFCCs.

연구 동기 및 목표

잡음이 있는 음향 환경에서 발성자 식별 성능을 향상시키는 것.
신호 품질이 열 劣한 조건에서도 정확도를 유지할 수 있는 강건한 음성 특징 추출 방법을 개발하는 것.
웨이블릿 변환과 멜 주파수 해석 계수를 통합하여 향상된 스펙트럼 표현을 확보하는 것.
HMM을 인식 엔진으로 사용하여 제안된 방법의 성능을 기존의 MFCC와 비교 평가하는 것.

제안 방법

입력 음성 신호는 이산 웨이블릿 변환(DWT)을 사용하여 다중 주파수 대역으로 분해되어 시간-주파수 다중 해상도 분석을 수행한다.
각 웨이블릿 분해된 서브밴드에서 멜 주파수 해석 계수(MFCC)를 추출하여 청각적으로 관련성이 있는 스펙트럼 엔벨로프를 캡처한다.
결과적으로 도출된 웨이블릿 기반 MFCC는 발성자 식별을 위해 훈련된 은폐 마르코프 모델(HMM)의 입력 특징으로 사용된다.
HMM은 시퀀스 모델링 및 분류에 사용되며, 발성자 검증 과제에서 다이내믹 타임 워핑(DTW)보다 뛰어난 성능을 보인다.
이 방법은 웨이블릿 분해의 잡음에 대한 강건성과 멜 주파수 필터링의 청각적 관련성을 결합한다.
모든 웨이블릿 서브밴드에서 유도된 특징 벡터를 연결하여 HMM 기반 발성자 식별 시스템의 훈련 및 테스트에 사용된다.

실험 결과

연구 질문

RQ1기존의 MFCC와 비교하여 웨이블릿 기반 특징 추출이 잡음 환경에서 발성자 인식 정확도를 향상시킬 수 있는가?
RQ2웨이블릿 변환과 멜 주파수 해석 계수의 통합이 인식 성능에 어떤 영향을 미치는가?
RQ3웨이블릿-MFCC 특징을 사용한 HMM이 표준 MFCC를 사용한 HMM보다 더 좋은 성능을 낼 수 있는가?
RQ4제안된 방법은 추가적인 백색 가우시안 잡음 조건에서 인식 정확도 저하를 어느 정도 감소시키는가?
RQ5발성자 식별에서 웨이블릿 분해 수준과 인식 성능 사이의 최적의 균형은 무엇인가?

주요 결과

제안된 웨이블릿 기반 MFCC 방법은 정상 음성 조건에서 99.3%의 발성자 인식률을 달성하였으며, 기존의 MFCC보다 뛰어난 성능을 보였다.
추가적인 백색 가우시안 잡음이 존재하는 20 dB 신호 대 잡음비(SNR) 조건에서는 제안된 방법이 97.3%의 인식률을 유지하였고, 기존의 MFCC는 93.3%에 머물렀다.
잡음 조건에서 제안된 방법은 기존의 MFCC보다 5.3%포인트 높은 성능 향상을 보였다.
웨이블릿 기반 접근법은 잡음에 대한 뛰어난 강건성을 보였으며, 스펙트럼 특징에서 간섭을 효과적으로 억제함을 시사했다.
웨이블릿-MFCC 특징을 사용한 HMM은 DTW 기반 시스템보다 더 높은 인식 정확도를 달성하였으며, HMM의 시퀀스 모델링 효과성을 확인했다.
다중 해상도 웨이블릿 분해와 멜 주파수 필터링의 통합은 청각적 특징 표현을 향상시켜 발성자 간의 구별 능력을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.