[论文解读] Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network
该论文提出了一种混合声学回声消除(AEC)系统,结合多延迟块频域自适应滤波器(MDF)与基于门控循环单元(GRU)的神经网络,以抑制残留回声。自适应滤波器用于消除线性回声,而RNN则通过从远端参考信号和近端信号中学习频带增益,专门针对非线性残留回声,实现了68 dB的回声回波损耗增强(ERLE),显著优于Speex和WebRTC。
Acoustic Echo Cancellation (AEC) plays a key role in voice interaction. Due to the explicit mathematical principle and intelligent nature to accommodate conditions, adaptive filters with different types of implementations are always used for AEC, giving considerable performance. However, there would be some kinds of residual echo in the results, including linear residue introduced by mismatching between estimation and the reality and non-linear residue mostly caused by non-linear components on the audio devices. The linear residue can be reduced with elaborate structure and methods, leaving the non-linear residue intractable for suppression. Though, some non-linear processing methods have already be raised, they are complicated and inefficient for suppression, and would bring damage to the speech audio. In this paper, a fusion scheme by combining adaptive filter and neural network is proposed for AEC. The echo could be reduced in a large scale by adaptive filtering, resulting in little residual echo. Though it is much smaller than speech audio, it could also be perceived by human ear and would make communication annoy. The neural network is elaborately designed and trained for suppressing such residual echo. Experiments compared with prevailing methods are conducted, validating the effectiveness and superiority of the proposed combination scheme.
研究动机与目标
- 为解决声学回声消除中的残留回声问题,特别是自适应滤波器无法完全抑制的非线性分量。
- 在传统自适应滤波和开源AEC系统(如Speex和WebRTC)的基础上,进一步提升回声抑制性能。
- 开发一种基于神经网络的残留回声抑制方法,具备高效性、低失真性,并适用于实时部署。
- 在保留语音质量的同时,减少残留回声带来的感知不适,并最小化处理延迟。
提出的方法
- 使用具有可变学习率的多延迟块频域(MDF)自适应滤波器,通过远端参考信号和房间脉冲响应(RIR)估计,消除主要的线性回声。
- 将MDF滤波后的残留信号视为具有与语音明显不同的频谱特性的噪声分量,从而实现针对性抑制。
- 训练门控循环单元(GRU)神经网络,以估计用于抑制残留回声的频带增益,使用干净语音与残留信号的能量比作为标签。
- 从每帧的近端和远端信号中提取特征向量,网络学习逐带调整增益,以最小化残留能量。
- 独立训练近端和远端信号的语音活动检测(VAD)模块,以支持双talk检测并提高系统鲁棒性。
- 模型通过三个目标进行训练:近端和远端信号的VAD,以及频带增益估计,损失函数在训练过程中趋近于零。
实验结果
研究问题
- RQ1结合自适应滤波与深度学习的混合系统是否能有效抑制AEC中的非线性残留回声?
- RQ2所提出的基于RNN的残留回声抑制方法与Speex和WebRTC等先进AEC系统相比,在回声抑制性能和语音质量方面表现如何?
- RQ3GRU网络在多大程度上能够学习感知相关的频带增益,以减少残留回声而不造成干净语音的失真?
- RQ4在所提出的系统中,回声抑制性能(ERLE)、频谱失真(LSD)、处理延迟(RT)和模型大小之间存在何种权衡?
主要发现
- 所提方法实现了68 dB的回声回波损耗增强(ERLE),显著优于Speex(25 dB)和WebRTC(40 dB)。
- 对数谱距离(LSD)为1.18 dB,表明频谱失真较低,优于WebRTC(1.66 dB),并接近Speex(1.01 dB)。
- 响应时间为1.63 ms/帧,高于Speex(0.42 ms/帧)和WebRTC(0.45 ms/帧),但仍适合实时应用。
- 模型大小为450 kb,大于Speex(106 kb)和WebRTC(140 kb),但通过定制化VAD结构和中间结果剪枝进行了优化。
- 频谱图显示,与WebRTC相比,所提方法在语音间隙(仅残留回声存在时)对残留回声的抑制效果更优。
- 神经网络学习到在低频带应用更低增益,而这些频带集中了残留回声的能量,证实了有效的频谱定位。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。