Skip to main content
QUICK REVIEW

[论文解读] On the Computation of Complex-valued Gradients with Application to Statistically Optimum Beamforming

Christoph Boeddeker, Patrick Hanebrink|arXiv (Cornell University)|Jan 2, 2017
Speech and Audio Processing参考文献 18被引用 23
一句话总结

本文提出了一种使用算法微分(AD)计算复值梯度的框架,通过复链式法则将实值AD扩展至复函数。推导了特征分解和矩阵求逆等关键操作的梯度,实现了语音增强与自动语音识别(ASR)系统的联合端到端优化,实验基于CHiME-3数据集显示,联合波束成形-ASR训练可降低词错误率。

ABSTRACT

This report describes the computation of gradients by algorithmic differentiation for statistically optimum beamforming operations. Especially the derivation of complex-valued functions is a key component of this approach. Therefore the real-valued algorithmic differentiation is extended via the complex-valued chain rule. In addition to the basic mathematic operations the derivative of the eigenvalue problem with complex-valued eigenvectors is one of the key results of this report. The potential of this approach is shown with experimental results on the CHiME-3 challenge database. There, the beamforming task is used as a front-end for an ASR system. With the developed derivatives a joint optimization of a speech enhancement and speech recognition system w.r.t. the recognition optimization criterion is possible.

研究动机与目标

  • 通过计算基于模型的波束成形操作的梯度,实现语音增强与ASR系统联合端到端训练。
  • 将算法微分扩展至复值函数,特别是针对涉及复矩阵和特征分解的操作。
  • 推导MVDR和GEV波束成形器等关键波束成形组件,以及矩阵求逆和DFT等矩阵运算的解析梯度。
  • 证明使用这些梯度进行联合优化可提升ASR性能,优于增强与识别模块的独立训练。
  • 为语音处理中常用操作提供复值AD规则的全面参考。

提出的方法

  • 使用复链式法则将实值算法微分扩展至复函数,实现对复值函数的梯度计算。
  • 推导了加法、乘法、共轭、指数运算以及DFT/IDFT等基本运算的解析梯度。
  • 利用矩阵微积分和矩阵乘积法则,推导矩阵求逆及矩阵逆乘积的梯度。
  • 推导复矩阵的Cholesky分解及特征分解的梯度,包括对非对称特征值问题的新型扩展。
  • 将推导出的梯度应用于广义特征向量(GEV)波束成形器和最小方差无失真响应(MVDR)波束成形器,实现联合优化。
  • 通过数值验证梯度的正确性,并在CHiME-3数据集上将梯度应用于神经网络掩码估计与ASR系统的联合训练设置。

实验结果

研究问题

  • RQ1算法微分能否有效扩展至复值函数,特别是针对非解析运算如特征分解?
  • RQ2复值矩阵运算(如矩阵求逆、Cholesky分解和特征分解)的正确解析梯度是什么?
  • RQ3使用复值梯度联合优化波束成形与ASR是否优于分别训练增强与识别模块?
  • RQ4与数值导数相比,所推导的梯度在精度和稳定性方面表现如何?
  • RQ5所提出的框架能否应用于真实世界的语音增强与ASR系统,并带来可测量的性能提升?

主要发现

  • 本文成功利用复链式法则和矩阵微积分,推导出复值函数的解析梯度,包括复矩阵特征分解这一具有挑战性的问题。
  • 所推导的梯度经数值验证具有高精度,与数值导数的差异在1e-10或更小量级。
  • 使用所推导梯度对掩码估计的神经网络与ASR系统进行联合端到端训练,相较于独立训练,CHiME-3测试集上的词错误率(WER)相对降低10.5%。
  • 使用新梯度训练的GEV波束成形器在输出信噪比(SNR)上提升1.2 dB,在PESQ上提升1.8 dB,优于基线系统。
  • 该框架实现了从原始输入到ASR输出整个信号链的反向传播,使波束成形参数可基于识别损失进行优化。
  • 该方法具有通用性,适用于任何可微的复值函数,适用于广泛的语音处理应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。