Skip to main content
QUICK REVIEW

[论文解读] Deep Multimodal Learning for Audio-Visual Speech Recognition

Youssef Mroueh, Etienne Marcheret|arXiv (Cornell University)|Jan 22, 2015
Speech and Audio Processing参考文献 15被引用 28
一句话总结

本文提出了一种用于音视频语音识别的深度多模态学习框架,通过分别训练的单模态深度神经网络(DNN)的晚期融合,以及一种新型双线性DNN架构来建模跨模态相关性。该方法在IBM AV-ASR数据集上实现了34.03%的音素错误率(PER),优于仅使用音频的模型和融合的单模态模型,在清晰语音条件下也表现出显著提升,通过联合建模音频与视觉模态实现了性能增益。

ABSTRACT

In this paper, we present methods in deep multimodal learning for fusing speech and visual modalities for Audio-Visual Automatic Speech Recognition (AV-ASR). First, we study an approach where uni-modal deep networks are trained separately and their final hidden layers fused to obtain a joint feature space in which another deep network is built. While the audio network alone achieves a phone error rate (PER) of $41\%$ under clean condition on the IBM large vocabulary audio-visual studio dataset, this fusion model achieves a PER of $35.83\%$ demonstrating the tremendous value of the visual channel in phone classification even in audio with high signal to noise ratio. Second, we present a new deep network architecture that uses a bilinear softmax layer to account for class specific correlations between modalities. We show that combining the posteriors from the bilinear networks with those from the fused model mentioned above results in a further significant phone error rate reduction, yielding a final PER of $34.03\%$.

研究动机与目标

  • 探究在信噪比高的清晰声学条件下,视觉模态是否能显著提升语音识别性能,而此前的研究多集中于噪声环境。
  • 开发一种有效的深度学习框架,以实现音频与视觉特征的融合,提升音素分类性能。
  • 提出一种双线性DNN架构,显式建模音频与视觉模态之间的类别特定相关性。
  • 证明通过联合后验概率抑制误差相关性,将双线性网络与融合的双模态网络的后验概率结合,可进一步降低错误率。

提出的方法

  • 分别在音频和视觉模态上训练深度神经网络(DNN),然后融合其最终隐藏层表示,实现联合分类。
  • 引入一种双线性Softmax层,通过张量积建模音频与视觉特征之间的交互,实现模态相关性的联合学习。
  • 推导出适用于双线性DNN的反向传播算法,通过双线性层在模态间引入消息传递项,实现梯度流动与权重更新。
  • 使用线性判别分析(LDA)分别对梅尔频率倒谱系数(MFCC)和散射系数进行降维,以生成紧凑且具有判别性的音频与视觉特征表示。
  • 通过融合多个双线性与双模态DNN架构的后验概率,降低误差相关性并提升泛化能力。
  • 在训练过程中施加Frobenius范数约束,以稳定双线性权重矩阵并防止发散。

实验结果

研究问题

  • RQ1在信噪比高的清晰音频条件下,视觉信息是否能显著提升语音识别性能?
  • RQ2对分别训练的单模态DNN进行晚期融合,是否能优于仅使用音频的模型?
  • RQ3能否通过建模跨模态相关性的双线性DNN架构,在降低音素错误率方面优于标准融合方法?
  • RQ4双线性DNN与融合的双模态DNN之间是否存在互补的错误行为,从而通过后验概率组合实现进一步性能提升?

主要发现

  • 融合的单模态DNN模型实现了35.83%的音素错误率(PER),相比仅使用音频的基线模型(41% PER)降低了6.17个百分点。
  • 双线性DNN架构单独使用时并未优于融合的双模态模型,但当与之结合后,后验概率融合实现了34.03%的PER,相比融合模型绝对提升了1.8个百分点。
  • 通过后验平均融合三个双线性DNN架构,实现了35.54%的PER,表明双线性模型具有不相关的错误模式,可提升泛化能力。
  • 双线性DNN建模类别特定模态相关性能力的提升,体现在与双模态模型融合后显著降低错误率,证明了其有效性。
  • 结果证实,视觉信息在清晰语音场景下同样具有显著优势,而不仅限于噪声或多人重叠说话的环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。