[论文解读] Audiovisual transfer learning for audio tagging and sound event detection
本论文通过在CRNN模型中融合预训练的听觉与视觉特征以及频谱音频特征,研究了用于音频标记和声音事件检测的视听迁移学习。结果表明,在音频标记(最高达83.72%的微平均F1)和粗粒度声音事件检测任务中性能显著提升,但在细粒度检测任务中提升有限,原因在于预训练模型的目标与时间预测任务之间存在不匹配。
We study the merit of transfer learning for two sound recognition problems, i.e., audio tagging and sound event detection. Employing feature fusion, we adapt a baseline system utilizing only spectral acoustic inputs to also make use of pretrained auditory and visual features, extracted from networks built for different tasks and trained with external data. We perform experiments with these modified models on an audiovisual multi-label data set, of which the training partition contains a large number of unlabeled samples and a smaller amount of clips with weak annotations, indicating the clip-level presence of 10 sound categories without specifying the temporal boundaries of the active auditory events. For clip-based audio tagging, this transfer learning method grants marked improvements. Addition of the visual modality on top of audio also proves to be advantageous in this context. When it comes to generating transcriptions of audio recordings, the benefit of pretrained features depends on the requested temporal resolution: for coarse-grained sound event detection, their utility remains notable. But when more fine-grained predictions are required, performance gains are strongly reduced due to a mismatch between the problem at hand and the goals of the models from which the pretrained vectors were obtained.
研究动机与目标
- 评估使用预训练听觉与视觉特征进行迁移学习在音频标记和声音事件检测中的有效性。
- 探究多模态视听融合是否能在弱监督数据下提升声音识别任务的性能。
- 分析不同输入特征类型(频谱、预训练听觉、预训练视觉)对不同时间粒度下模型性能的影响。
- 识别预训练特征在细粒度声音事件检测中因训练目标不匹配而产生的局限性。
- 为音频标记和声音事件检测任务,全面比较包含与不包含预训练特征的模型。
提出的方法
- 使用对数梅尔频谱图特征作为输入,训练一个CRNN基线模型,用于音频标记和声音事件检测。
- 从在AudioSet上预训练的音频识别模型中提取预训练听觉特征,从在ImageNet上预训练的图像分类模型中提取视觉特征。
- 通过在CNN编码器之前将频谱、听觉和视觉特征在输入层进行拼接,实现特征融合。
- 模型使用两层双向GRU进行时间建模,随后通过一个带有Sigmoid激活函数的全连接层进行多标签帧级预测。
- 通过线性池化计算片段级概率,并使用固定的0.5阈值进行二分类决策。
- 训练采用均值教师正则化技术,并结合数据增强(SpecAugment、mixup),共进行20次随机初始化,基于验证性能选择最佳模型。
实验结果
研究问题
- RQ1与仅使用频谱特征相比,引入预训练听觉与视觉特征是否能提升音频标记和声音事件检测的性能?
- RQ2在弱监督设置下,音频与视觉特征的多模态融合如何影响识别性能?
- RQ3预训练特征在粗粒度与细粒度声音事件检测任务中的收益程度如何?
- RQ4为何预训练特征在细粒度声音事件检测中收益递减?其根本原因和影响因素是什么?
主要发现
- 在音频标记任务中,结合频谱、预训练听觉和视觉特征的模型在片段级实现了83.72%的微平均F1分数,相较于仅使用频谱特征的基线模型(76.22%)提升了7.50个百分点。
- 仅使用预训练听觉特征的模型在音频标记任务中达到81.03%的F1分数,优于仅使用频谱特征的基线模型(76.22%),表明不同特征类型之间具有互补性。
- 仅使用视觉特征的模型F1分数为61.60%,但当与听觉特征融合后,性能提升至80.04%,证明了多模态学习的价值。
- 在粗粒度声音事件检测(基于片段的F1)中,预训练特征仍能带来性能增益,最佳模型达到76.86%的F1分数,较仅使用频谱特征的基线模型(70.09%)提升了6.77个百分点。
- 在细粒度声音事件检测(基于事件的F1)中,预训练特征带来的性能增益微乎其微或完全缺失,最佳模型仅达到32.65%的F1分数,略低于仅使用频谱特征的基线模型(33.03%)。
- 预训练听觉与视觉模型缺乏时间建模能力,很可能是导致其在细粒度检测中表现不佳的原因,因为这些模型并未针对时间边界预测进行优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。