[论文解读] Self-supervised audio representation learning for mobile devices
本文提出了一种自监督音频表征学习方法——Audio2Vec(受Word2Vec启发)和TemporalGap,专为移动设备部署而设计。通过利用频谱图中的时间上下文,这些模型学习到通用的音频嵌入,可在下游任务(如语音和音乐检测)中实现优异性能,其准确率接近全监督模型,同时通过在设备端进行联邦学习实现隐私保护训练。
We explore self-supervised models that can be potentially deployed on mobile devices to learn general purpose audio representations. Specifically, we propose methods that exploit the temporal context in the spectrogram domain. One method estimates the temporal gap between two short audio segments extracted at random from the same audio clip. The other methods are inspired by Word2Vec, a popular technique used to learn word embeddings, and aim at reconstructing a temporal spectrogram slice from past and future slices or, alternatively, at reconstructing the context of surrounding slices from the current slice. We focus our evaluation on small encoder architectures, which can be potentially run on mobile devices during both inference (re-using a common learned representation across multiple downstream tasks) and training (capturing the true data distribution without compromising users' privacy when combined with federated learning). We evaluate the quality of the embeddings produced by the self-supervised learning models, and show that they can be re-used for a variety of downstream tasks, and for some tasks even approach the performance of fully supervised models of similar size.
研究动机与目标
- 开发适用于移动设备推理和训练的自监督音频表征学习方法。
- 利用频谱图中的时间上下文学习无需标注数据的通用音频嵌入。
- 通过从真实用户数据分布中学习,实现基于联邦学习的隐私保护型设备端模型训练。
- 评估所学习嵌入在多样化下游音频任务中的可迁移性与性能表现。
- 证明小型编码器架构可在移动平台上实现接近全监督模型的性能。
提出的方法
- 提出Audio2Vec,一种受Word2Vec启发的自监督任务:通过过去和未来的上下文片段(CBoW)或反之(skip-gram)重建目标频谱图片段。
- 引入TemporalGap,一种对比学习任务,用于估计同一音频片段中随机采样两段音频之间的时间距离。
- 采用小型高效编码器架构,确保设备端推理与训练的可行性,并对模型大小和FLOPs进行优化以适配移动部署。
- 采用两阶段评估:第一阶段将预训练编码器作为固定特征提取器;第二阶段微调编码器并添加任务特定层,以评估其可迁移性。
- 应用知识蒸馏和模型量化技术,进一步优化模型以适配移动设备部署。
- 在多样化下游任务上评估模型,包括语音命令识别、语言识别、音乐检测和说话人识别。
实验结果
研究问题
- RQ1基于频谱图中时间上下文的自监督学习方法能否生成适用于移动设备部署的通用音频表征?
- RQ2在使用小型编码器架构时,Audio2Vec和TemporalGap在下游音频任务上的表现与全监督模型相比如何?
- RQ3在多样化且未经筛选的数据集(如AudioSet)上进行训练,是否能获得优于在更同质化数据集(如LibriSpeech)上训练的表征?
- RQ4在多大程度上可借助这些自监督模型实现在设备端的联邦学习训练?
- RQ5微调编码器的深层网络在多大程度上能恢复接近全监督模型的性能?
主要发现
- 当使用更大的编码器时,Audio2Vec(skip-gram)在Speech Commands上达到0.46的准确率,在TUT Urban Acoustic Scenes 2018上达到0.78,接近全监督模型的性能。
- TemporalGap在音乐检测(0.97准确率)和说话人识别(0.71准确率)任务上表现优异,但当在LibriSpeech上训练时准确率显著下降。
- 在AudioSet上训练相比在LibriSpeech上训练,下游性能始终更优,TemporalGap在Speech Commands上的准确率下降21%,TripletLoss下降44%。
- 尽管仅占20%的FLOPs,微调Audio2Vec(skip-gram)编码器的最后两层即可恢复大部分与全监督模型之间的准确率差距。
- 将编码器大小扩大4倍后,所有任务的准确率均有所提升,Audio2Vec(skip-gram)在语言和说话人识别任务上达到1.00的准确率。
- 所提方法无需标注数据即可实现高质量表征学习,使其适用于通过联邦学习在设备端训练,同时保护用户隐私。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。