[论文解读] Convolutional Neural Networks and x-vector Embedding for DCASE2018 Acoustic Scene Classification Challenge
本文提出一种混合深度学习方法,结合2D与1D卷积神经网络(CNN)及x-vector嵌入,融合对数梅尔倒谱图谱和常数Q变换(CQT)特征,用于声学场景分类。性能最佳的系统通过八种模型的分数平均实现晚期融合,在DCASE2018评估集上达到78.4%的准确率,24支队伍中排名第三。
In this paper, the Brno University of Technology (BUT) team submissions for Task 1 (Acoustic Scene Classification, ASC) of the DCASE-2018 challenge are described. Also, the analysis of different methods on the leaderboard set is provided. The proposed approach is a fusion of two different Convolutional Neural Network (CNN) topologies. The first one is the common two-dimensional CNNs which is mainly used in image classification. The second one is a one-dimensional CNN for extracting fixed-length audio segment embeddings, so called x-vectors, which has also been used in speech processing, especially for speaker recognition. In addition to the different topologies, two types of features were tested: log mel-spectrogram and CQT features. Finally, the outputs of different systems are fused using a simple output averaging in the best performing system. Our submissions ranked third among 24 teams in the ASC sub-task A (task1a).
研究动机与目标
- 为DCASE2018挑战赛开发一个鲁棒的声学场景分类系统,采用深度神经网络。
- 探究结合2D CNN处理图像类特征与1D CNN提取x-vector嵌入的有效性。
- 评估不同特征类型(对数梅尔倒谱图谱与CQT)及多通道输入配置的性能。
- 分析数据增强与融合策略对模型泛化能力与准确率的影响。
- 识别失败案例,特别是公共广场类别,为未来模型设计与数据增强提供改进方向。
提出的方法
- 采用双分支CNN架构:标准2D CNN将音频特征视为2D图像处理,1D CNN用于从时间音频段中学习固定长度的x-vector嵌入。
- 使用对数梅尔倒谱图谱和常数Q变换(CQT)特征作为输入,采用40 ms汉明窗、20 ms重叠和2048点FFT提取。
- 通过组合左声道、右声道、和声(L+R)与差分(L-R)声道实现四通道输入模式,以增强空间与频谱信息的利用。
- 通过同一场景音频段的加权和实现数据增强,在保持场景身份的前提下将训练数据扩大三倍。
- 采用简单输出平均与逻辑回归(FoCal)进行多模型融合,最佳系统结合了在增强数据上训练的八个模型。
- 在官方开发集上训练模型,并在挑战赛提供的官方评估集上进行评估,使用提供的验证划分进行超参数调优。
实验结果
研究问题
- RQ1在DCASE2018数据集上,2D CNN与结合x-vector提取的1D CNN在声学场景分类任务中的性能表现如何比较?
- RQ2对数梅尔倒谱图谱与CQT特征在场景分类任务中的相对贡献是什么?
- RQ3与单通道输入相比,使用四通道音频特征(L, R, M, S)是否能提升模型性能?
- RQ4通过音频段混合实现的简单数据增强在不使用外部数据的情况下,对泛化能力的提升效果如何?
- RQ5在未见数据上,简单平均融合策略与逻辑回归融合策略(FoCal)哪种更具泛化能力与鲁棒性?
主要发现
- 通过简单分数平均融合八个模型在评估集上达到78.4%的准确率,24支队伍中排名第三。
- 对数梅尔倒谱图谱在所有配置中均优于CQT特征,基于梅尔倒谱图谱的系统在数据增强下最高达到76.8%准确率。
- 四通道输入模式在大多数情况下提升了性能,尤其在增强数据上表现更优,但部分配置出现性能下降,表明对训练动态敏感。
- 数据增强对大多数模型有性能提升作用,但其效果在不同架构间存在差异,2D CNN受益程度高于1D CNN。
- 简单分数平均始终优于基于逻辑回归的融合(FoCal),后者可能因训练过程中的过拟合导致性能下降。
- 公共广场类别最为困难,准确率仅为29.9%,表明模型在捕捉该场景类型的细微声学线索方面存在失败。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。