Skip to main content
QUICK REVIEW

[论文解读] Kapre: On-GPU Audio Preprocessing Layers for a Quick Implementation of Deep Neural Network Models with Keras

Keunwoo Choi, Deokjin Joo|arXiv (Cornell University)|Jun 19, 2017
Music and Audio Processing参考文献 4被引用 57
一句话总结

Kapre 提供用于 Keras 的 GPU 上音频预处理层(梅尔谱、归一化、噪声),以简化音乐/音频任务的深度学习工作流,并有基准显示约额外训练时间为 ~20%,但在存储/原型制作方面具有优势。

ABSTRACT

We introduce Kapre, Keras layers for audio and music signal preprocessing. Music research using deep neural networks requires a heavy and tedious preprocessing stage, for which audio processing parameters are often ignored in parameter optimisation. To solve this problem, Kapre implements time-frequency conversions, normalisation, and data augmentation as Keras layers. We report simple benchmark results, showing real-time on-GPU preprocessing adds a reasonable amount of computation.

研究动机与目标

  • 在 Keras 内实现并启用 GPU 上的音频预处理,以简化并加速音频模型的原型设计。
  • 实现可微分的时-频表示及相关预处理(梅尔谱、归一化)为可训练的 Keras 层。
  • 评估在训练过程中 GPU 上音频预处理的计算开销,以了解对大型模型的权衡。

提出的方法

  • 将时-频转换实现为 Keras 层(通过用 DF T 内核初始化的二维卷积实现的 Spectrogram)。
  • 将 Spectrogram 扩展为带可训练梅尔尺度矩阵的 Mel-spectrogram。
  • 提供 Normalization2D,用于按频率、时间、通道、数据和批次对数据进行归一化。
  • 包含可配置为梅尔/对数/线性尺度的 Filterbank 层,并支持随机初始化。
  • 添加 AdditiveNoise,用于数据增强,具有可训练或可随机化的噪声增益(在训练中应用)。
  • 在一个简单 CNN 中演示集成 Kapre 预处理,并对有/无 Kapre 预处理的训练时间进行基准比较。

实验结果

研究问题

  • RQ1Kapre 的 GPU 上音频预处理层是否能够为 Keras 的音频模型提供快速且节省存储的流水线?
  • RQ2在训练中整合 Kapre 预处理的经验性额外计算开销是多少,以及它如何随模型规模变化?

主要发现

  • Kapre 实现了在 Keras 中的端到端预处理,包括可训练层的梅尔谱、归一化和高斯噪声。
  • 在一个五层卷积神经网络的实验中,GPU 上的预处理相较于没有预处理的训练,训练时间增加约 20%。
  • 该实验使用了一个 30 秒的单声道信号(32 kHz)和一个小网络(157,336 个参数)来评估开销。
  • 所提出的方法支持快速原型设计,并通过避免预先计算的谱来实现潜在的存储节省。
  • Kapre 表明对更大网络的训练过程几乎不会对训练动力学造成显著干扰,从而实现预处理的集成。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。