QUICK REVIEW
[论文解读] Kapre: On-GPU Audio Preprocessing Layers for a Quick Implementation of Deep Neural Network Models with Keras
Keunwoo Choi, Deokjin Joo|arXiv (Cornell University)|Jun 19, 2017
Music and Audio Processing参考文献 4被引用 57
一句话总结
Kapre 提供用于 Keras 的 GPU 上音频预处理层(梅尔谱、归一化、噪声),以简化音乐/音频任务的深度学习工作流,并有基准显示约额外训练时间为 ~20%,但在存储/原型制作方面具有优势。
ABSTRACT
We introduce Kapre, Keras layers for audio and music signal preprocessing. Music research using deep neural networks requires a heavy and tedious preprocessing stage, for which audio processing parameters are often ignored in parameter optimisation. To solve this problem, Kapre implements time-frequency conversions, normalisation, and data augmentation as Keras layers. We report simple benchmark results, showing real-time on-GPU preprocessing adds a reasonable amount of computation.
研究动机与目标
- 在 Keras 内实现并启用 GPU 上的音频预处理,以简化并加速音频模型的原型设计。
- 实现可微分的时-频表示及相关预处理(梅尔谱、归一化)为可训练的 Keras 层。
- 评估在训练过程中 GPU 上音频预处理的计算开销,以了解对大型模型的权衡。
提出的方法
- 将时-频转换实现为 Keras 层(通过用 DF T 内核初始化的二维卷积实现的 Spectrogram)。
- 将 Spectrogram 扩展为带可训练梅尔尺度矩阵的 Mel-spectrogram。
- 提供 Normalization2D,用于按频率、时间、通道、数据和批次对数据进行归一化。
- 包含可配置为梅尔/对数/线性尺度的 Filterbank 层,并支持随机初始化。
- 添加 AdditiveNoise,用于数据增强,具有可训练或可随机化的噪声增益(在训练中应用)。
- 在一个简单 CNN 中演示集成 Kapre 预处理,并对有/无 Kapre 预处理的训练时间进行基准比较。
实验结果
研究问题
- RQ1Kapre 的 GPU 上音频预处理层是否能够为 Keras 的音频模型提供快速且节省存储的流水线?
- RQ2在训练中整合 Kapre 预处理的经验性额外计算开销是多少,以及它如何随模型规模变化?
主要发现
- Kapre 实现了在 Keras 中的端到端预处理,包括可训练层的梅尔谱、归一化和高斯噪声。
- 在一个五层卷积神经网络的实验中,GPU 上的预处理相较于没有预处理的训练,训练时间增加约 20%。
- 该实验使用了一个 30 秒的单声道信号(32 kHz)和一个小网络(157,336 个参数)来评估开销。
- 所提出的方法支持快速原型设计,并通过避免预先计算的谱来实现潜在的存储节省。
- Kapre 表明对更大网络的训练过程几乎不会对训练动力学造成显著干扰,从而实现预处理的集成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。