QUICK REVIEW

[论文解读] Basic Filters for Convolutional Neural Networks: Training or Design?

Monika Dörfler, Thomas Grill|arXiv (Cornell University)|Sep 7, 2017

Neural Networks and Applications被引用 4

一句话总结

本文提出用直接作用于原始音频的自适应滤波器替代卷积神经网络中标准的梅尔倒谱图预处理，实验表明，经过学习的滤波器配合时间平均后，在歌唱语音检测任务中优于传统的基于傅里叶变换的梅尔倒谱图。理论与实验结果均证实，自适应滤波器能够有效近似梅尔倒谱图，同时提升分类性能。

ABSTRACT

When convolutional neural networks are used to tackle learning problems based on music or, more generally, time series data, raw one-dimensional data are commonly pre-processed to obtain spectrogram or mel-spectrogram coefficients, which are then used as input to the actual neural network. In this contribution, we investigate, both theoretically and experimentally, the influence of this pre-processing step on the network's performance and pose the question, whether replacing it by applying adaptive or learned filters directly to the raw data, can improve learning success. The theoretical results show that approximately reproducing mel-spectrogram coefficients by applying adaptive filters and subsequent time-averaging is in principle possible. We also conducted extensive experimental work on the task of singing voice detection in music. The results of these experiments show that for classification based on Convolutional Neural Networks the features obtained from adaptive filter banks followed by time-averaging perform better than the canonical Fourier-transform-based mel-spectrogram coefficients. Alternative adaptive approaches with center frequencies or time-averaging lengths learned from training data perform equally well.

研究动机与目标

探究将固定的梅尔倒谱图预处理替换为自适应滤波器是否能提升卷积神经网络在时间序列音频数据上的性能。
确定通过理论分析，学习到的滤波器是否能有效近似梅尔倒谱图系数。
评估具有可学习中心频率或时间平均长度的自适应滤波器组与标准梅尔倒谱图的性能对比。
评估端到端训练中使用自适应滤波器是否能提升歌唱语音检测任务中的分类准确率。

提出的方法

提出用直接处理原始音频的自适应滤波器组替代基于傅里叶变换的固定梅尔倒谱图计算。
在自适应滤波后应用时间平均，以模拟梅尔倒谱图的能量聚合特性。
通过理论分析表明，设计合理的自适应滤波器可近似再现梅尔倒谱图系数。
采用端到端训练方式，使用具有可学习中心频率和时间平均窗口参数的自适应滤波器组特征，训练卷积神经网络。
在相同的卷积神经网络架构下，使用相同的歌唱语音检测基准数据集，将性能与标准梅尔倒谱图输入进行对比。
评估多种自适应配置，包括固定与可学习的滤波器组参数，以检验其鲁棒性与泛化能力。

实验结果

研究问题

RQ1自适应滤波器是否能足够精确地近似梅尔倒谱图系数，从而作为卷积神经网络的有效输入特征？
RQ2将固定的梅尔倒谱图预处理替换为可学习的自适应滤波器，是否能提升时间序列音频任务中的分类准确率？
RQ3不同配置的自适应滤波器——如变化的中心频率或时间平均长度——如何影响模型性能？
RQ4自适应滤波器带来的性能提升是源于更好的特征表示，还是对输入变化更强的不变性？

主要发现

理论分析证实，自适应滤波器配合时间平均可近似再现梅尔倒谱图系数。
实验结果表明，结合时间平均的自适应滤波器组在歌唱语音检测任务中优于标准的基于傅里叶变换的梅尔倒谱图。
采用可学习中心频率或时间平均长度的配置，其性能可与最佳固定自适应滤波器设置相媲美。
所提出方法在无需通过傅里叶变换进行预处理的情况下，提升了分类准确率。
使用自适应滤波器的端到端训练，相比固定梅尔倒谱图输入，能实现更好的泛化能力与特征学习效果。
性能提升在多个实验设置中保持一致，表明自适应滤波方法具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。