QUICK REVIEW

[논문 리뷰] Feature extraction with mel scale separation method on noise audio recordings

Roy Rudolf Huizen, Florentina Tatrin Kurniati|arXiv (Cornell University)|2021. 12. 30.

Speech and Audio Processing참고 문헌 28인용 수 6

한 줄 요약

이 논문은 잡음이 있는 음성 기록에서 특징 추출 정확도를 햖스키기 위해 메르 스케일 분리 방법(MFCC 듀얼채널)을 제안한다. 기존의 MFCC 싱글채널과 비교하여, 메르 스케일 주파수 대역을 임계주파수 이하(≤1 kHz)와 이상(1–4 kHz)로 분할한 후 MFCC 추출을 수행하고, 적응형 잡음 제거(ANC)와 융합함으로써 -16 dB SNR에서 76.25%의 정확도를 달성한다. 이는 싱글채널의 47.5%보다 유의미하게 높으며, 잡음에 대한 강인성을 입증한다.

ABSTRACT

This paper focuses on improving the accuracy of noise audio recordings. High-quality audio recording, extraction using the mel frequency cepstral coefficients (MFCC) method produces high accuracy. While the low-quality is because of noise, the accuracy is low. Improved accuracy by investigating the effect of bandwidth on the mel scale. The proposed improvement uses the mel scale separation methods into two frequency channels (MFCC dual channel). For the comparison method using the mel scale bandwidth without separation (MFCC single-channel). Feature analysis using k-mean clustering. The data uses a noise variance of up to -16 dB. Testing on the MFCC single channel method for -16 dB noise has an accuracy of 47.5%, while the MFCC dual-channel method has an accuracy better of 76.25%. The next test used adaptive noise-canceling (ANC) to reduce noise before extraction. The result is that the MFCC single-channel method has an accuracy of 82.5% and the MFCC dual-channel method has an accuracy better of 83.75%. High-quality audio recording testing for the MFCC single-channel method has an accuracy of 92.5% and the MFCC dual-channel method has an accuracy better of 97.5%. The test results show the effect of mel scale bandwidth to increase accuracy. The MFCC dual-channel method has higher accuracy.

연구 동기 및 목표

저품질의 잡음이 있는 음성 기록에서의 발화자 식별 정확도 향상.
메르 스케일 대역폭 분할이 특징 추출 성능에 미치는 영향 조사.
기존의 MFCC 싱글채널과 비교해 메르 스케일 분리를 이중 주파수 채널로 구현한 MFCC 듀얼채널의 효과 평가.
메르 스케일 분리와 적응형 잡음 제거(ANC)의 조합이 분류 정확도에 미치는 영향 평가.
합성된 잡음이 있는 음성 데이터를 이용해 k-means 클러스터링과 정량적 정확도 지표를 통해 방법의 타당성 검증.

제안 방법

메르 스케일 주파수 응답을 0–1 kHz(저역통과) 및 1–4 kHz(대역통과)로 분할하여 MFCC 듀얼채널 방법을 제안.
이dealized sinc 기반 인파르스포스 응답을 기반으로 저역통과 및 대역통과 필터를 적용해 주파수 성분을 분리.
최소 평균 제곱 오차를 최소화하기 위해 반복적 가중치 갱신을 수행하는 적응형 잡음 제거(ANC)에 대해 최소 평균 제곱(LMS) 알고리즘 적용.
각 필터링된 대역에 대해 표준 MFCC 추출(예강화, 프레임 분할, 윈도잉, FFT, 메르 필터뱅크, 로그 에너지, DCT)을 별도로 수행.
추출된 특징에 대해 k-means 클러스터링을 수행해 테스트 및 기준 음성 샘플 간 유사도 평가.
정확도를 진짜 양성(TP), 진짜 음성(TN), 거짓 양성(FP), 거짓 음성(FN) 비율을 사용해 계산.

실험 결과

연구 질문

RQ1메르 스케일을 두 주파수 대역으로 분할하면 MFCC 기반 특징 추출 정확도가 잡음이 있는 음성에서 향상되는가?
RQ2다양한 잡음 수준에서 MFCC 듀얼채널 방법은 표준 MFCC 싱글채널 방법보다 어떻게 비교되는가?
RQ3메르 스케일 분리와 적응형 잡음 제거(ANC)를 융합할 경우 분류 정확도는 어느 정도 향상되는가?
RQ4다양한 신호 대 잡음비(SNR)에서 듀얼채널 방법의 성능은 어떻게 변화하는가?
RQ5잡음에 의한 열화 상황에서 듀얼채널 방식이 발화자 고유 특징을 더 잘 유지하는가?

주요 결과

-16 dB SNR에서 ANC를 적용하지 않은 경우, MFCC 듀얼채널 방법은 76.25%의 정확도를 기록했고, MFCC 싱글채널 방법은 47.5%였다.
ANC를 적용한 결과, MFCC 싱글채널 방법은 82.5%의 정확도를 달성했고, 듀얼채널 방법은 -16 dB SNR에서 83.75%의 정확도를 기록했다.
고품질(잡음 없음) 기록에서는 MFCC 듀얼채널 방법이 97.5%의 정확도를 기록했고, 싱글채널 방법은 92.5%였다.
MFCC 듀얼채널 방법은 잡음에 대한 강인성이 뛰어나, k-means 클러스터링에서 테스트 및 기준 샘플 간 클러스터 중심점 유사도를 높게 유지했다.
메르 스케일 분리와 ANC의 조합은 정확도를 크게 향상시켰으며, 모든 잡음 조건에서 듀얼채널 방법이 가장 높은 성능를 보였다.
결과적으로 메르 스케일 대역폭 분할이 인간 청각 인지와 더 잘 부합하는 방식으로 특징 표현을 향상시켜, 특히 잡음 환경에서 성능 향상에 기여함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.