QUICK REVIEW

[論文レビュー] Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network

Lu Ma, Hua Huang|arXiv (Cornell University)|May 19, 2020

Advanced Adaptive Filtering Techniques参考文献 20被引用数 24

ひとこと要約

本稿では、多遅延ブロック周波数ドメイン適応フィルタ（MDF）とゲート付き再帰型ユニット（GRU）ベースのニューラルネットワークを組み合わせたハイブリッド音響エコーキャンセレーション（AEC）システムを提案する。適応フィルタは線形エコーをキャンセルし、RNNは特定の周波数帯域の増幅率を遠端リファレンス信号と近端信号から学習することで非線形残りエコーを特に効果的に抑制する。68 dBのエコーリターンロス強化（ERLE）を達成し、Speex や WebRTC より顕著に優れた性能を発揮する。

ABSTRACT

Acoustic Echo Cancellation (AEC) plays a key role in voice interaction. Due to the explicit mathematical principle and intelligent nature to accommodate conditions, adaptive filters with different types of implementations are always used for AEC, giving considerable performance. However, there would be some kinds of residual echo in the results, including linear residue introduced by mismatching between estimation and the reality and non-linear residue mostly caused by non-linear components on the audio devices. The linear residue can be reduced with elaborate structure and methods, leaving the non-linear residue intractable for suppression. Though, some non-linear processing methods have already be raised, they are complicated and inefficient for suppression, and would bring damage to the speech audio. In this paper, a fusion scheme by combining adaptive filter and neural network is proposed for AEC. The echo could be reduced in a large scale by adaptive filtering, resulting in little residual echo. Though it is much smaller than speech audio, it could also be perceived by human ear and would make communication annoy. The neural network is elaborately designed and trained for suppressing such residual echo. Experiments compared with prevailing methods are conducted, validating the effectiveness and superiority of the proposed combination scheme.

研究の動機と目的

適応フィルタが完全に抑制できない非線形成分に起因する残りエコーを解消すること。
従来の適応フィルターやSpeex や WebRTC といったオープンソースAECシステムを上回るエコー抑制性能を向上させること。
実時間処理に適した効率的で低歪みのニューラルネットワークベースの残りエコー抑制手法を開発すること。
残りエコーに起因する聴取的不快感を低減しつつ、音声品質を維持し、処理遅延を最小限に抑えること。

提案手法

可変学習率を備えた多遅延ブロック周波数ドメイン（MDF）適応フィルタを用い、遠端リファレンス信号と部屋インパulse応答（RIR）推定を活用して主な線形エコーをキャンセルする。
MDFフィルタ後の残り信号は、音声とは異なるスペクトル特性を示すノイズに類似した成分とみなされ、特定の抑制が可能になる。
ゲート付き再帰型ユニット（GRU）ニューラルネットワークを、クリアな音声と残り信号間のエネルギー比をラベルとして用いて、残りエコーを抑制する周波数帯域の増幅率を推定するように訓練する。
フレームごとに近端および遠端信号から特徴ベクトルを抽出し、ネットワークは帯域ごとに増幅率を調整することで残りエネルギーを最小化するように学習する。
二重会話検出を支援し、耐障害性を向上させるために、両チャネルの音声活動検出（VAD）モジュールを別々に訓練する。
モデルは3つの目的で訓練される：近端および遠端信号のVAD、および帯域増幅率推定。損失関数はトレーニング中にほぼゼロにまで低下する。

実験結果

リサーチクエスチョン

RQ1適応フィルタとディープラーニングを組み合わせたハイブリッドシステムは、AECにおける非線形残りエコーを効果的に抑制できるか？
RQ2提案されたRNNベースの残りエコー抑制手法は、Speex や WebRTC といった最先端AECシステムと比較して、エコー抑制性能と音声品質の点でどのように差をつけるか？
RQ3GRUネットワークは、クリアな音声を歪めることなく、残りエコーを低減するための知覚的に関連する帯域増幅率をどの程度学習できるか？
RQ4本システムにおいて、エコー抑制性能（ERLE）、周波数歪み（LSD）、処理遅延（RT）、モデルサイズの間にはどのようなトレードオフが生じるか？

主な発見

提案手法は68 dBのエコーリターンロス強化（ERLE）を達成し、Speex（25 dB）や WebRTC（40 dB）を著しく上回る。
対数周波数歪み（LSD）が1.18 dBであり、周波数歪みが低く、WebRTC（1.66 dB）を上回り、Speex（1.01 dB）に近い水準に達している。
1.63 ms/フレームの応答時間は、Speex（0.42 ms/フレーム）や WebRTC（0.45 ms/フレーム）より高いが、実時間応用に適している。
モデルサイズは450 kbであり、Speex（106 kb）や WebRTC（140 kb）より大きいが、特化したVAD構造と中間結果のクリッピングにより最適化されている。
スペクトログラムの比較から、特に音声ギャップ（エコーのみが残存する領域）において、本手法はWebRTCよりも効果的に残りエコーを抑制している。
ニューラルネットワークは、残りエコーエネルギーが集中する低周波数帯域に対して低い増幅率を適用するよう学習しており、効果的なスペクトル的ターゲティングが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。