QUICK REVIEW

[논문 리뷰] Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques

Lindasalwa Muda, M. Humrosia Begam|arXiv (Cornell University)|2010. 03. 22.

Music and Audio Processing참고 문헌 6인용 수 821

한 줄 요약

이 논문은 특징 추출에 멜 주파수 해석 계수(MFCC)를, 시퀀스 매칭에 동적 시간 왜곡(DTW)을 사용하는 음성 인식 시스템을 제안한다. MFCC는 청각적으로 중요한 음성 특징을 효과적으로 포착하는 반면, DTW는 음성의 시간적 변동성을 보완하여 비선형적으로 정렬된 음성 패턴을 통해 정확한 발화자 인식을 실현함을 보여준다.

ABSTRACT

Digital processing of speech signal and voice recognition algorithm is very important for fast and accurate automatic voice recognition technology. The voice is a signal of infinite information. A direct analysis and synthesizing the complex voice signal is due to too much information contained in the signal. Therefore the digital signal processes such as Feature Extraction and Feature Matching are introduced to represent the voice signal. Several methods such as Liner Predictive Predictive Coding (LPC), Hidden Markov Model (HMM), Artificial Neural Network (ANN) and etc are evaluated with a view to identify a straight forward and effective method for voice signal. The extraction and matching process is implemented right after the Pre Processing or filtering signal is performed. The non-parametric method for modelling the human auditory perception system, Mel Frequency Cepstral Coefficients (MFCCs) are utilize as extraction techniques. The non linear sequence alignment known as Dynamic Time Warping (DTW) introduced by Sakoe Chiba has been used as features matching techniques. Since it's obvious that the voice signal tends to have different temporal rate, the alignment is important to produce the better performance.This paper present the viability of MFCC to extract features and DTW to compare the test patterns.

연구 동기 및 목표

디지털 신호 처리 기법을 활용해 신뢰성 있고 효율적인 음성 인식 시스템을 개발하기 위해.
직접적인 음성 패턴 비교를 어렵게 만드는 음성 신호의 시간적 변동성 문제를 해결하기 위해.
인간 청각 인지 모델링을 반영하는 특징 추출 방법으로서 MFCC의 효과성을 평가하기 위해.
비선형으로 정렬된 음성 시퀀스에 대한 강력한 매칭 기법으로서 DTW의 가능성을 탐구하기 위해.
MFCC와 DTW의 조합이 정확한 자동 음성 인식을 위한 실현 가능성을 입증하기 위해.

제안 방법

특징 추출 이전에 노이즈 제거 및 명료도 향상을 위한 원시 음성 신호 전처리.
인간 청각 인지에 반영된 스펙트럼 특징을 추출하기 위해 멜 주파수 해석 계수(MFCC) 적용.
이산 푸리에 변환(DFT)과 멜 척도 필터 밴드를 활용해 주파수 스펙트럼을 청각적으로 가중된 계수로 변환.
다양한 말하기 속도를 가진 음성 시퀀스 간의 정렬과 비교를 위해 동적 시간 왜곡(DTW) 사용.
시험 신호와 기준 신호의 특징 벡터 간 누적 거리 최소화를 위한 비용 함수를 적용하여 DTW 실행.
시험 음성 패턴을 데이터베이스에 저장된 기준 템플릿과 DTW를 통해 비교하여 가장 유사한 매칭 결과 식별.

실험 결과

연구 질문

RQ1MFCC는 음성 신호로부터 음성 인식에 적합한 분류 가능한 특징을 효과적으로 추출할 수 있는가?
RQ2패턴 매칭 과정에서 DTW는 음성 신호의 시간적 변동성을 얼마나 잘 처리하는가?
RQ3다양한 말하기 속도 하에서 MFCC-DTW 조합의 성능은 어떠한가?
RQ4고립된 단어 인식에 있어 이 방법은 LPC나 HMM과 같은 기존 방법보다 더 강건한가?
RQ5실시간 응용에서 최소한의 계산 부하로 높은 정확도를 달성할 수 있는가?

주요 결과

MFCC는 중요한 청각 대역을 강조함으로써 음성 신호의 압축적이고 청각적으로 관련된 표현을 제공한다.
DTW는 다양한 지속시간을 가진 음성 시퀀스를 성공적으로 정렬하여 말하기 속도의 차이에도 불구하고 매칭 정확도를 향상시킨다.
MFCC와 DTW의 조합은 고립된 단어나 발화자 인식 작업에서 높은 인식 정확도를 달성한다.
비모수적 성격 덕분에 계산이 효율적이며 실시간 응용에 적합하다.
피치 및 말하기 속도의 변동성에 대해 강건성을 보이며 실용적 구현에 적합하다.
변동 조건 하에서 단순성과 인식 안정성 측면에서 전통적 방법인 LPC보다 성능이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.