[论文解读] Audio Transformers
本文提出端到端的 Transformer 架构,在不使用卷积的情况下对原始音频进行处理,在 FSD50K 数据集上获得状态-前沿的平均精度均值(mAP),并探索池化和多尺度嵌入以提升性能。
Over the past two decades, CNN architectures have produced compelling models of sound perception and cognition, learning hierarchical organizations of features. Analogous to successes in computer vision, audio feature classification can be optimized for a particular task of interest, over a wide variety of datasets and labels. In fact similar architectures designed for image understanding have proven effective for acoustic scene analysis. Here we propose applying Transformer based architectures without convolutional layers to raw audio signals. On a standard dataset of Free Sound 50K,comprising of 200 categories, our model outperforms convolutional models to produce state of the art results. This is significant as unlike in natural language processing and computer vision, we do not perform unsupervised pre-training for outperforming convolutional architectures. On the same training set, with respect mean aver-age precision benchmarks, we show a significant improvement. We further improve the performance of Transformer architectures by using techniques such as pooling inspired from convolutional net-work designed in the past few years. In addition, we also show how multi-rate signal processing ideas inspired from wavelets, can be applied to the Transformer embeddings to improve the results. We also show how our models learns a non-linear non constant band-width filter-bank, which shows an adaptable time frequency front end representation for the task of audio understanding, different from other tasks e.g. pitch estimation.
研究动机与目标
- 证明纯 Transformer 架构(无卷积)在大规模音频场景理解任务上能够超越基线的 CNN。
- 研究能够学习的前端表示,用以将时频分析自适应于音频任务。
- 探索池化和多尺度嵌入策略,以提升 Transformer 在音频数据上的性能。
- 展示可学习前端如何发展出非线性、非恒定带宽的滤波器组。
- 在 FSD50K 数据集上提供对不同架构的实证比较。
提出的方法
- 使用前端全连接层(先 2048,再 64)将1秒音频(16 kHz)转换为 Transformer 兼容的嵌入。
- 堆叠 Transformer 编码器(6 层,64 维嵌入,8 个注意力头),使用因果多头自注意力和前馈模块。
- 加入位置编码(正弦型)以保留时间结构。
- 在每两个 Transformer 层之后对时间维度进行池化,以降低维度并实现分层特征。
- 通过可变窗口和可微分分解,引入受小波启发的多尺度嵌入。
- 在 FSD50K 数据集上使用 Adam 优化器和 Huber 损失端到端训练,并与 CNN 基线进行比较。
实验结果
研究问题
- RQ1在大规模音频理解任务上,纯 Transformer 架构(无卷积层)是否能够达到最先进的性能?
- RQ2池化和多尺度嵌入策略如何影响 Transformer 在音频数据上的性能?
- RQ3在端到端训练以进行音频理解时,可学习的前端将发展出何种时频表示?
- RQ4在 FSD50K 上,不同模型规模的基于 Transformer 的模型与 CNNs 的比较如何?
- RQ5架构深度和嵌入维度对音频 mAP 性能的影响是什么?
主要发现
| 神经模型架构 | mAP | # 参数 |
|---|---|---|
| CRNN | 0.417 | 0.96M |
| VGG-like | 0.434 | 0.27M |
| ResNet-18 | 0.373 | 11.3M |
| DenseNet-121 | 0.425 | 12.5M |
| Small Transformer | 0.469 | 0.9M |
| Large 6-Layer Transformer | 0.525 | 2.3M |
| Large Transformer with multi-scale filters | ||
| Large 6- Layer Transformer with Pooling | 0.537 | 2.3M |
- 不使用卷积的基线 Transformer 在声学场景理解上超过了常见的基于 CNN 的架构。
- 大规模六层 Transformer 的 mAP 高于若干 CNN 变体(如 0.525 比较低的 CNN 分数)。
- 在每两个 Transformer 层之后进行池化(尤其是平均池化)带来相对于基线的性能提升。
- 多尺度和受小波启发的嵌入策略提供了进一步的提升,尽管未列出多尺度变体的确切 mAP。
- 可学习前端发现了非线性、非恒定带宽的滤波组,类似自适应时频分析;滤波器包括正弦波、起音检测器和能量包络。
- 前端在不同任务上具有泛化能力,显示出用于音高估计与音频场景理解的滤波形状不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。