QUICK REVIEW

[论文解读] Kapre: On-GPU Audio Preprocessing Layers for a Quick Implementation of Deep Neural Network Models with Keras

Keunwoo Choi, Deokjin Joo|arXiv (Cornell University)|Jun 19, 2017

Music and Audio Processing参考文献 4被引用 57

一句话总结

Kapre 提供用于 Keras 的 GPU 上音频预处理层（梅尔谱、归一化、噪声），以简化音乐/音频任务的深度学习工作流，并有基准显示约额外训练时间为 ~20%，但在存储/原型制作方面具有优势。

ABSTRACT

We introduce Kapre, Keras layers for audio and music signal preprocessing. Music research using deep neural networks requires a heavy and tedious preprocessing stage, for which audio processing parameters are often ignored in parameter optimisation. To solve this problem, Kapre implements time-frequency conversions, normalisation, and data augmentation as Keras layers. We report simple benchmark results, showing real-time on-GPU preprocessing adds a reasonable amount of computation.

研究动机与目标

在 Keras 内实现并启用 GPU 上的音频预处理，以简化并加速音频模型的原型设计。
实现可微分的时-频表示及相关预处理（梅尔谱、归一化）为可训练的 Keras 层。
评估在训练过程中 GPU 上音频预处理的计算开销，以了解对大型模型的权衡。

提出的方法

将时-频转换实现为 Keras 层（通过用 DF T 内核初始化的二维卷积实现的 Spectrogram）。
将 Spectrogram 扩展为带可训练梅尔尺度矩阵的 Mel-spectrogram。
提供 Normalization2D，用于按频率、时间、通道、数据和批次对数据进行归一化。
包含可配置为梅尔/对数/线性尺度的 Filterbank 层，并支持随机初始化。
添加 AdditiveNoise，用于数据增强，具有可训练或可随机化的噪声增益（在训练中应用）。
在一个简单 CNN 中演示集成 Kapre 预处理，并对有/无 Kapre 预处理的训练时间进行基准比较。

实验结果

研究问题

RQ1Kapre 的 GPU 上音频预处理层是否能够为 Keras 的音频模型提供快速且节省存储的流水线？
RQ2在训练中整合 Kapre 预处理的经验性额外计算开销是多少，以及它如何随模型规模变化？

主要发现

Kapre 实现了在 Keras 中的端到端预处理，包括可训练层的梅尔谱、归一化和高斯噪声。
在一个五层卷积神经网络的实验中，GPU 上的预处理相较于没有预处理的训练，训练时间增加约 20%。
该实验使用了一个 30 秒的单声道信号（32 kHz）和一个小网络（157,336 个参数）来评估开销。
所提出的方法支持快速原型设计，并通过避免预先计算的谱来实现潜在的存储节省。
Kapre 表明对更大网络的训练过程几乎不会对训练动力学造成显著干扰，从而实现预处理的集成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。