QUICK REVIEW

[논문 리뷰] Spoken Language Identification Using Hybrid Feature Extraction Methods

Pawan Kumar, Astik Biswas|arXiv (Cornell University)|2010. 03. 29.

Speech Recognition and Synthesis참고 문헌 11인용 수 33

한 줄 요약

이 논문은 메르 주파수 펄스 계수(MFCC)와 청각 선형 예측(PLP)을 조합하여 두 가지 새로운 특징인 베어크 주파수 펄스 계수(BFCC)와 개선된 청각 선형 예측(RPLP)를 도출하는 하이브리드 특징 추출 방법을 제안한다. 벡터 양자화와 동적 시간 왜곡(VQ-DTW) 및 가우시안 혼합 모델(GMM)을 사용하여, RPLP와 GMM 조합이 두 분류기 모두에서 기존의 MFCC 및 PLP 특징을 능가하는 최고의 식별 정확도를 달성함을 보여준다.

ABSTRACT

This paper introduces and motivates the use of hybrid robust feature extraction technique for spoken language identification (LID) system. The speech recognizers use a parametric form of a signal to get the most important distinguishable features of speech signal for recognition task. In this paper Mel-frequency cepstral coefficients (MFCC), Perceptual linear prediction coefficients (PLP) along with two hybrid features are used for language Identification. Two hybrid features, Bark Frequency Cepstral Coefficients (BFCC) and Revised Perceptual Linear Prediction Coefficients (RPLP) were obtained from combination of MFCC and PLP. Two different classifiers, Vector Quantization (VQ) with Dynamic Time Warping (DTW) and Gaussian Mixture Model (GMM) were used for classification. The experiment shows better identification rate using hybrid feature extraction techniques compared to conventional feature extraction methods.BFCC has shown better performance than MFCC with both classifiers. RPLP along with GMM has shown best identification performance among all feature extraction techniques.

연구 동기 및 목표

강건한 하이브리드 특징 추출 기법을 개발하여 말하기 언어 식별(LID) 성능을 향상시키기.
MFCC와 PLP 특징을 융합하여 BFCC 및 RPLP와 같은 새로운 하이브리드 표현을 도출하는 데 효과적인지 조사하기.
VQ-DTW 및 GMM를 포함한 다양한 분류기들을 사용하여 이러한 하이브리드 특징의 성능 평가하기.
LID 정확도를 최대화하기 위한 최적의 특징-분류기 조합 도출하기.
실제의 노이즈가 있거나 음향 조건이 변동하는 환경에서 하이브리드 특징이 기존의 MFCC 및 PLP를 능가하는지 확인하기.

제안 방법

저자는 하이브리드 특징 생성을 위한 기본 구성 요소로 음성 신호에서 MFCC와 PLP 특징을 추출한다.
BFCC는 로그 파wer 스펙트럼에 베어크 척도 필터 백을 적용하여 도출되며, 청각적 특성과 스펙트럼 특성을 통합한다.
RPLP는 스펙트럼 엔벨롭 추정을 향상시키기 위해 PLP 과정을 개선하여 강건성을 높인다.
BFCC와 RPLP는 MFCC와 PLP의 상호보완적 강점을 활용하여 조합된 하이브리드 특징으로 계산된다.
두 가지 분류기가 사용된다: 패턴 매칭을 위한 벡터 양자화와 동적 시간 왜곡(VQ-DTW), 확률적 분류를 위한 가우시안 혼합 모델(GMM).
표준 LID 지표를 사용하여 성능을 평가하며, 다양한 특징 세트와 분류기 간의 인식률 비교를 수행한다.

실험 결과

연구 질문

RQ1MFCC와 PLP를 융합한 하이브리드 특징 추출 기법이 말하기 언어 식별 정확도를 향상시킬 수 있는가?
RQ2BFCC와 RPLP 특징은 기존의 MFCC 및 PLP에 비해 강건성과 구분 능력 측면에서 어떻게 비교되는가?
RQ3VQ-DTW와 GMM 중 하이브리드 특징과 조합했을 때 더 높은 성능을 보이는 분류기는 무엇인가?
RQ4RPLP와 GMM 조합이 LID 작업에서 모든 다른 특징-분류기 구성보다 뛰어나게 성능을 냅니다?
RQ5실제 음향 환경의 변동성에 의해 하이브리드 특징이 LID 성능을 얼마나 향상시키는가?

주요 결과

모든 테스트된 특징-분류기 조합 중에서 RPLP와 GMM 조합이 가장 높은 언어 식별 정확도를 달성한다.
하이브리드 특징인 RPLP는 VQ-DTW 또는 GMM과 함께 사용했을 때 MFCC 및 PLP를 모두 능가한다.
BFCC는 MFCC 및 PLP보다 성능 향상을 보였지만, RPLP만큼 효과적이지는 않다.
모든 특징 유형에서 GMM는 VQ-DTW를 일관되게 능가하여, 복잡한 음성 변동성을 모델링하는 데서의 우수성을 보여준다.
MFCC와 PLP를 RPLP로 통합함으로써 스펙트럼 표현이 크게 향상되어 더 나은 언어 구분이 가능해진다.
이 연구는 하이브리드 특징 추출 기법이 독립적인 MFCC 또는 PLP보다 더 강건하고 효과적이라는 점을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.