QUICK REVIEW

[论文解读] Guitar Effects Recognition and Parameter Estimation with Convolutional Neural Networks

Marco Comunità, Dan Stowell|arXiv (Cornell University)|Dec 6, 2020

Music and Audio Processing参考文献 36被引用 12

一句话总结

本文提出一种卷积神经网络（CNN）模型，用于从电吉他录音中识别13种特定的吉他过载、失真和 fuzz 插件，并估计其控制参数（Gain、Tone）。利用一种新型的250小时单音与和音采样数据集，其中参数设置为离散或连续，该模型在大多数情况下实现了分类准确率超过80%，参数估计的平均绝对误差（MAE）低于0.05，表明离散参数数据集可实现与连续参数数据集相当的性能，同时更易于设计与分析。

ABSTRACT

Despite the popularity of guitar effects, there is very little existing research on classification and parameter estimation of specific plugins or effect units from guitar recordings. In this paper, convolutional neural networks were used for classification and parameter estimation for 13 overdrive, distortion and fuzz guitar effects. A novel dataset of processed electric guitar samples was assembled, with four sub-datasets consisting of monophonic or polyphonic samples and discrete or continuous settings values, for a total of about 250 hours of processed samples. Results were compared for networks trained and tested on the same or on a different sub-dataset. We found that discrete datasets could lead to equally high performance as continuous ones, whilst being easier to design, analyse and modify. Classification accuracy was above 80\%, with confusion matrices reflecting similarities in the effects timbre and circuits design. With parameter values between 0.0 and 1.0, the mean absolute error is in most cases below 0.05, while the root mean square error is below 0.1 in all cases but one.

研究动机与目标

开发一种深度学习模型，能够从音频录音中识别特定的吉他踏板插件并估计其参数。
解决针对特定吉他效果单元（尤其是非线性过载、失真和 fuzz 效果）进行分类与参数估计的研究不足问题。
比较在离散与连续参数设置下训练的模型在效果识别与参数估计方面的性能表现。
创建一个大规模、多样化的处理后电吉他采样数据集，以支持此类模型的稳健训练与评估。
评估在一种参数设置类型（离散/连续）上训练的模型在另一种设置上的泛化能力。

提出的方法

使用来自 IDMT-SMT-Audio-Effects 数据集的未处理录音，创建了一个自定义的250小时处理后电吉他采样数据集，通过13种流行的吉他插件仿真进行处理。
该数据集包含单音（624个音符）和和音（420个和弦/音程）采样，参数设置为离散（例如：0.0、0.2、0.5、0.8、1.0）或连续（在[0.0, 1.0]范围内均匀采样）。
采用一维卷积神经网络（1D CNN）架构，同时用于分类与参数估计，设有独立的输出头用于效果类别与控制参数预测。
模型在四个子数据集上进行训练与评估：单音离散、单音连续、和音离散、和音连续设置。
损失函数结合了用于分类的分类交叉熵与用于参数估计的平均绝对误差（MAE），并对控制值进行归一化处理，范围为[0.0, 1.0]。
通过在一种子数据集上训练并在另一子数据集上测试的方式评估泛化能力，包括跨设置评估（例如：在离散数据上训练，在连续数据上测试）。

实验结果

研究问题

RQ1深度学习模型能否从音频录音中准确识别13种特定的吉他过载、失真和 fuzz 插件？
RQ2在离散与连续控制设置下，模型在参数估计方面的性能表现有何差异？
RQ3在离散参数值上训练的模型能否良好泛化到连续参数估计任务，反之亦然？
RQ4和音输入与单音输入对分类与参数估计准确率有何影响？
RQ5在模型准确率、设计复杂度与泛化能力方面，使用离散参数设置与连续参数设置之间是否存在性能权衡？

主要发现

所有子数据集的分类准确率均超过80%，混淆矩阵反映出效果之间在听觉感知与电路结构上的相似性。
在参数估计方面，16种情况中有12种的平均绝对误差（MAE）低于0.05，且除一种情况外，所有情况的均方根误差（RMSE）均低于0.1。
当在和音采样上进行训练与测试时，估计误差最低，表明和弦与音程内容有助于提升模型性能。
在离散参数设置上训练的模型对连续参数设置表现出良好泛化能力，大多数控制参数的MAE低于0.05，表明离散数据集具有可行性与实用性。
在连续参数设置上训练的模型在离散参数设置上测试时表现出更高的方差与偏度，尤其是在增益值低于0.5时，表明低增益区域的插值存在挑战。
本研究证明，离散参数数据集可实现与连续参数数据集相当的性能，同时在设计、控制与分析方面具有优势，且不以牺牲准确率为代价。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。