Skip to main content
QUICK REVIEW

[论文解读] Explaining Deep Convolutional Neural Networks on Music Classification

Keunwoo Choi, George Fazekas|arXiv (Cornell University)|Jul 8, 2016
Music and Audio Processing参考文献 2被引用 32
一句话总结

本文通过从反卷积谱图重建音频,对音乐分类中的深度卷积神经网络(CNN)进行听觉化,以解释学习到的特征。通过聆听重建信号并分析特征相关性,研究发现深层网络学习的是对音高、和弦及乐器变化具有鲁棒性的抽象纹理,而非简单的形状;随着网络层数加深,特征对音乐变化的不变性逐渐增强。

ABSTRACT

Deep convolutional neural networks (CNNs) have been actively adopted in the field of music information retrieval, e.g. genre classification, mood detection, and chord recognition. However, the process of learning and prediction is little understood, particularly when it is applied to spectrograms. We introduce auralisation of a CNN to understand its underlying mechanism, which is based on a deconvolution procedure introduced in [2]. Auralisation of a CNN is converting the learned convolutional features that are obtained from deconvolution into audio signals. In the experiments and discussions, we explain trained features of a 5-layer CNN based on the deconvolved spectrograms and auralised signals. The pairwise correlations per layers with varying different musical attributes are also investigated to understand the evolution of the learnt features. It is shown that in the deep layers, the features are learnt to capture textures, the patterns of continuous distributions, rather than shapes of lines.

研究动机与目标

  • 理解深度CNN在音乐流派分类任务中如何学习表示,特别是当应用于谱图时。
  • 解决CNN在主观音乐任务(如流派和情绪分类)中可解释性不足的问题。
  • 通过将学习到的特征还原为可听信号,扩展基于反卷积的可视化方法,以实现更直观的解释。
  • 分析网络各层对音乐属性变化的特征表示演化过程。
  • 评估学习到的特征对音高、和弦类型及乐器变化的鲁棒性。

提出的方法

  • 对在音乐流派分类任务上训练的五层CNN中每一层的特征图应用反卷积,以重建谱图。
  • 对反卷积后的谱图执行逆短时傅里叶变换(STFT),以重建时域音频信号,实现听觉化。
  • 使用在乐器、和弦类型和音高上具有受控变化的模型信号,系统性地探测特征响应。
  • 计算不同音乐属性条件下特征激活之间的成对相关性,以评估鲁棒性。
  • 通过可视化和解释反卷积谱图及听觉化音频,为学习到的滤波器赋予音乐意义。
  • 分析从低层模式(边缘、线条)到高层纹理及和声-节奏结构的特征演化过程。

实验结果

研究问题

  • RQ1在音乐分类任务中,CNN学习到的特征如何在网络各层中演化?
  • RQ2学习到的特征在多大程度上对音高、和弦类型和乐器变化具有鲁棒性?
  • RQ3与仅使用谱图可视化相比,反卷积特征的听觉化能否提供更直观的理解?
  • RQ4深层网络中的滤波器对何种音乐结构产生响应?
  • RQ5最终层的高层特征是否代表抽象的、不变的模式,而非特定形状或频率?

主要发现

  • 在深层网络中,CNN滤波器学习检测连续纹理和和声-节奏模式,而非离散形状或边缘。
  • 特征响应对音高变化的鲁棒性逐渐增强,第五层的相关性最高,表明对移调具有不变性。
  • 网络在早期层(第一层)对乐器变化最为敏感,但在深层网络中变得更具鲁棒性,第五层的乐器鲁棒性接近和弦变化的鲁棒性。
  • 和弦类型变化在第一层影响最强,但在深层网络中,不同和弦类型之间的特征响应相关性逐渐提高,显示出更强的不变性。
  • 特征5-56特别对重叠的强打击乐元素和和声模式产生响应,表明其捕捉到一种独特的、与流派相关的纹理。
  • 听觉化过程使滤波器的直接听觉解释成为可能,揭示高层特征对应于复杂、抽象的音乐纹理,而非简单的频谱形状。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。