[论文解读] Audio Spectrogram Representations for Processing with Convolutional Neural Networks
本文评审用于 CNN 的音频数据表示,聚焦于用于生成音频任务的 spectrogram(如风格迁移),并比较预训练图像网络与音频训练或随机权重网络。
One of the decisions that arise when designing a neural network for any application is how the data should be represented in order to be presented to, and possibly generated by, a neural network. For audio, the choice is less obvious than it seems to be for visual images, and a variety of representations have been used for different applications including the raw digitized sample stream, hand-crafted features, machine discovered features, MFCCs and variants that include deltas, and a variety of spectral representations. This paper reviews some of these representations and issues that arise, focusing particularly on spectrograms for generating audio using neural networks for style transfer.
研究动机与目标
- 澄清不同音频表示(例如 spectrogram、MFCC、原始波形)如何影响 CNN 处理与生成任务。
- 研究将基于图像的风格迁移应用于音频 spectrogram 的可行性。
- 评估网络权重对音频风格迁移结果的影响(预训练图像网络 vs. 随机权重)。
- 讨论将 CNN 应用于 spectrogram 时的架构考量,包括通道处理和时频表示。
提出的方法
- 回顾用于神经网络的现有音频表示,涵盖分类和生成任务。
- 使用预训练的 VGG-19 在 spectrogram 上进行风格迁移实验,以在 spectrogram 之间传递风格,同时使用来自其他 spectrogram 的内容。
- 解决将单通道 spectrogram 复制为三个通道以适用于图像网络以及将结果转换回单通道 spectrogram 的实际问题。
- 探索替代的 spectrogram 处理方法,包括将频率 bin 视为通道以及用于音频的非图像 CNN 架构。
- 给出一个使用 ESC-50 派生 spectrogram 数据集的的小型实验设置,使用两层 CNN 比较随机权重与预训练权重在风格迁移中的表现。
实验结果
研究问题
- RQ1是否可以有效地将基于图像的 CNN 架构(如 VGG-19)用于音频 spectrogram 的风格迁移?
- RQ2随机权重网络与预训练网络在产生连贯的内容-风格音频迁移方面有何差异?
- RQ3为了在音频生成任务中将 2D 图像 CNN 应用于 spectrogram,需要哪些实际的架构调整(如通道处理、频率表示)?
- RQ4用于音频分类训练的网络是否比随机权重网络提供更整合的内容-风格合成?
主要发现
- spectrogram 表示比传统手工特征保留更多信息,且维度低于原始音频。
- 在 spectrogram 上使用图像网络进行风格迁移可以产生可感知的风格-内容混合,但由于声学表示的差异,结果不如视觉风格迁移那样具有说服力。
- 用于音频分类的网络比随机权重网络在整合的内容-风格合成方面表现更好。
- 将单通道 spectrogram 复制到三个图像通道再返回单通道 spectrogram 会引入处理挑战并可能影响质量。
- 当将频率 bin 视为通道时,可能需要显著更多的通道数量以捕捉更长时间尺度的风格特征。
- 纯随机权重网络在可检测的风格迁移方面明显不如具有训练权重的网络,尤其是在添加噪声时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。