[论文解读] Interpreting and Explaining Deep Neural Networks for Classification of Audio Signals
本文将逐层相关性传播(LRP)应用于音频分类中的深度神经网络解释,利用一个全新的英语口语数字数据集,分析基于波形和频谱图模型的特征相关性。结果证实,网络在很大程度上依赖于LRP识别出的相关特征,验证了该方法在解释音频分类决策方面的有效性。
Interpretability of deep neural networks is a recently emerging area of machine learning research targeting a better understanding of how models perform feature selection and derive their classification decisions. This paper explores the interpretability of neural networks in the audio domain by using the previously proposed technique of layer-wise relevance propagation (LRP). We present a novel audio dataset of English spoken digits which we use for classification tasks on spoken digits and speaker's gender. We use LRP to identify relevant features for two neural network architectures that process either waveform or spectrogram representations of the data. Based on the relevance scores obtained from LRP, hypotheses about the neural networks' feature selection are derived and subsequently tested through systematic manipulations of the input data. The results confirm that the networks are highly reliant on features marked as relevant by LRP.
研究动机与目标
- 通过应用逐层相关性传播(LRP)提高音频分类中深度神经网络的可解释性。
- 开发并发布一个用于训练和评估音频分类模型的新颖英语口语数字数据集。
- 利用基于LRP的解释,研究神经网络在分类口语数字和说话人性别时如何选择特征。
- 通过系统的输入操作验证LRP识别特征的可靠性。
提出的方法
- 提出并应用逐层相关性传播(LRP)方法,将相关性分数追溯回深度神经网络的各层,以处理音频输入。
- 在新发布的口语数字数据集上训练两种神经网络架构——一种处理原始波形,另一种使用频谱图。
- 利用LRP生成输入显著性图,以识别对分类决策贡献最大的音频区域(时间-频率区域或波形段)。
- 通过遮蔽或修改LRP识别出的相关区域,系统性地操纵输入数据,以测试模型的鲁棒性和假设的有效性。
- 对比不同架构的相关性图,分析特征选择行为的差异。
实验结果
研究问题
- RQ1LRP揭示的音频特征中,深度神经网络在分类口语数字和说话人性别时依赖哪些特征?
- RQ2LRP在不同神经网络架构(波形与频谱图)之间产生的相关性分数是否具有一致性?
- RQ3当LRP识别出的相关特征被修改或移除时,模型预测的变化程度如何?
- RQ4LRP能否有效突出语音数字中的有意义声学线索,如音高、共振峰或音素过渡?
主要发现
- 当遮蔽或修改LRP标记为相关的关键区域时,神经网络表现出对这些特征的高度敏感性,性能显著下降。
- LRP成功突出了波形和频谱图表示中具有声学意义的区域,如共振峰过渡和音高轮廓。
- 在频谱图上训练的模型显示出更局部化相关性图,而波形模型则突出了与音素时长和包络特征一致的更广泛时间模式。
- 系统的输入操作证实,移除LRP识别的相关特征会导致分类错误,从而验证了该可解释性方法的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。