QUICK REVIEW

[论文解读] Feature extraction with mel scale separation method on noise audio recordings

Roy Rudolf Huizen, Florentina Tatrin Kurniati|arXiv (Cornell University)|Dec 30, 2021

Speech and Audio Processing参考文献 28被引用 6

一句话总结

该论文提出了一种梅尔尺度分离方法（MFCC双通道），以提升在噪声音频记录中的特征提取准确性，与传统的MFCC单通道方法进行对比。通过在MFCC提取前将梅尔尺度频带划分为低频（≤1 kHz）和高频（1–4 kHz）两部分，并结合自适应噪声消除（ANC），该方法在-16 dB信噪比下实现了76.25%的准确率，显著高于单通道方法的47.5%，表明其在噪声环境下具有更强的鲁棒性。

ABSTRACT

This paper focuses on improving the accuracy of noise audio recordings. High-quality audio recording, extraction using the mel frequency cepstral coefficients (MFCC) method produces high accuracy. While the low-quality is because of noise, the accuracy is low. Improved accuracy by investigating the effect of bandwidth on the mel scale. The proposed improvement uses the mel scale separation methods into two frequency channels (MFCC dual channel). For the comparison method using the mel scale bandwidth without separation (MFCC single-channel). Feature analysis using k-mean clustering. The data uses a noise variance of up to -16 dB. Testing on the MFCC single channel method for -16 dB noise has an accuracy of 47.5%, while the MFCC dual-channel method has an accuracy better of 76.25%. The next test used adaptive noise-canceling (ANC) to reduce noise before extraction. The result is that the MFCC single-channel method has an accuracy of 82.5% and the MFCC dual-channel method has an accuracy better of 83.75%. High-quality audio recording testing for the MFCC single-channel method has an accuracy of 92.5% and the MFCC dual-channel method has an accuracy better of 97.5%. The test results show the effect of mel scale bandwidth to increase accuracy. The MFCC dual-channel method has higher accuracy.

研究动机与目标

提升在低质量、噪声环境下音频记录中的说话人识别准确性。
研究梅尔尺度带宽分割对特征提取性能的影响。
评估将梅尔尺度分离为两个频率通道（MFCC双通道）与标准MFCC单通道方法的对比效果。
评估梅尔尺度分离与自适应噪声消除（ANC）联合使用对分类准确率的影响。
通过k-means聚类和合成噪声音频数据的定量准确率指标验证该方法。

提出的方法

通过将梅尔尺度频率响应划分为两个频带（0–1 kHz，低通）和（1–4 kHz，带通），提出MFCC双通道方法。
基于理想化的sinc函数脉冲响应，应用低通和带通滤波器以分离频率分量。
采用最小均方（LMS）算法进行自适应噪声消除（ANC），通过参考噪声输入和迭代权重更新以最小化均方误差。
在每个滤波后的频带中分别应用标准MFCC提取流程（预加重、分帧、加窗、FFT、梅尔滤波器组、对数能量和DCT）。
对提取的特征进行k-means聚类，以评估测试样本与参考样本之间的相似性。
基于真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）率计算准确率。

实验结果

研究问题

RQ1将梅尔尺度划分为两个频率带是否能提升在噪声音频中基于MFCC的特征提取准确率？
RQ2在不同噪声水平下，MFCC双通道方法与标准MFCC单通道方法相比表现如何？
RQ3将梅尔尺度分离与自适应噪声消除（ANC）结合，能在多大程度上提升分类准确率？
RQ4双通道方法在不同信噪比（SNR）下的性能表现如何？
RQ5在噪声导致的信号退化下，双通道方法是否能更好地保留说话人特异性特征？

主要发现

在未使用ANC的-16 dB信噪比条件下，MFCC双通道方法准确率达到76.25%，而MFCC单通道方法仅为47.5%。
在应用ANC后，MFCC单通道方法准确率达到82.5%，而双通道方法在-16 dB信噪比下达到83.75%。
对于高质量（无噪声）录音，MFCC双通道方法准确率达到97.5%，优于单通道方法的92.5%。
MFCC双通道方法在噪声环境下表现出更强的鲁棒性，其在k-means聚类中保持了测试样本与参考样本之间更高的聚类中心相似性。
梅尔尺度分离与ANC的结合显著提升了准确率，双通道方法在所有噪声条件下均表现出最高性能。
结果证实，梅尔尺度带宽分区能增强特征表示，尤其在噪声环境中，因其更符合人类听觉感知特性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。