QUICK REVIEW

[論文レビュー] SkipConvNet: Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping

Vinay Kothapally, Wei Xia|arXiv (Cornell University)|Jul 17, 2020

Speech and Audio Processing参考文献 24被引用数 25

ひとこと要約

本稿では、特徴学習を向上させるために標準的なスキップ接続を複数の畳み込みモジュールに置き換えることで、音声のエコー除去に適した完全畳み込み型U-NetアーキテクチャであるSkipConvNetを提案する。また、パワースペクトル密度（PSD）の最適平滑化を前処理ステップとして導入している。この手法は、REVERBチャレンジコーパスのシミュレート済みおよび実世界データにおいて、WPEおよび標準U-Netを上回る音声品質とバックエンドシステム性能の顕著な向上を達成した。

ABSTRACT

The reliability of using fully convolutional networks (FCNs) has been successfully demonstrated by recent studies in many speech applications. One of the most popular variants of these FCNs is the `U-Net', which is an encoder-decoder network with skip connections. In this study, we propose `SkipConvNet' where we replace each skip connection with multiple convolutional modules to provide decoder with intuitive feature maps rather than encoder's output to improve the learning capacity of the network. We also propose the use of optimal smoothing of power spectral density (PSD) as a pre-processing step, which helps to further enhance the efficiency of the network. To evaluate our proposed system, we use the REVERB challenge corpus to assess the performance of various enhancement approaches under the same conditions. We focus solely on monitoring improvements in speech quality and their contribution to improving the efficiency of back-end speech systems, such as speech recognition and speaker verification, trained on only clean speech. Experimental findings show that the proposed system consistently outperforms other approaches.

研究の動機と目的

エコー環境下での深層学習を用いた音声エコー除去性能の向上を目的とする。
標準U-Netのスキップ接続の限界を解消するため、学習可能な畳み込みモジュールに置き換えること。
構造的なスキップパスを用いて、デコーダーにおける特徴表現および学習能力を向上させること。
最適PSD平滑化を前処理ステップとして用いることのネットワーク性能への影響を調査すること。
提案手法をシミュレート済みおよび実記録データの両方で評価し、音声品質およびバックエンドシステム性能の向上に焦点を当てる。

提案手法

U-Netにおける標準的なスキップ接続を、デコーダーにより豊富で直感的な特徴マップを提供する複数の畳み込みモジュールに置き換える。
最小統計に基づくアプローチを用い、時間および周波数に依存する最適平滑化パラメータ α_opt(t,f) を導入してパワースペクトル密度（PSD）推定を最適化する。
最適平滑化されたPSDをネットワークの入力とし、-80 dB未満の値は動的範囲を維持するためにクリッピング処理を行う。
ストライド付き畳み込み（ダウンサンプリング）および逆畳み込み（アップサンプリング）を用いた完全畳み込み型エンコーダ-デコーダー構造を採用し、エンドツーエンド学習を実現する。
予測されたクリーンな対数パワースペクトルマグニチュード（LPS）と真のLPSの間の平均二乗誤差（MSE）損失関数を用い、Adam最適化法とバッチサイズ8、10エポックでネットワークを学習させる。
ネットワークが予測したLPSと元のノイズ混在音声の位相を組み合わせることで、強化された音声を再構築する。

実験結果

リサーチクエスチョン

RQ1U-Netにおける標準的なスキップ接続を学習可能な畳み込みモジュールに置き換えることで、音声エコー除去性能が向上するか？
RQ2PSDの最適平滑化を前処理ステップとして用いることで、完全畳み込みネットワークの学習効率および最終的な性能が向上するか？
RQ3シミュレート済みおよび実世界データにおいて、SkipConvNetはWPEおよび標準U-Netと比較して、音声品質およびバックエンドシステム性能で優れているか？
RQ4提案された前処理ステップは、SkipConvNet以外のFCNアーキテクチャに対しても、どの程度性能向上をもたらすか？
RQ5提案手法は、クリアな音声データにのみ微調整された自動音声認識（ASR）および発話者認証（SV）システムにおいて、一貫して性能向上をもたらすか？

主な発見

SkipConvNetは、シミュレート済みおよび実世界データにおいて、標準U-Netと比較して音声品質指標（例：CD、FWSegSNR、SRMR）で54.45%の相対的改善を達成した。
提案された最適平滑化前処理ステップは、単体でもU-Net性能を相対的に39.19%向上させ、SkipConvNetに限らず一般に有益であることが示された。
すべての品質指標の平均で、前処理を施したU-Netと比較して、SkipConvNetは10.40%の相対的改善を達成した。
発話者認証では、シミュレート済みおよび実世界の記録において、WPEと比較してEERを35.03%、前処理済みU-Netと比較して16.42%相対的に低減した。
自動音声認識では、シミュレート済みおよび実世界データにおいて、WPEと比較して48.15%、前処理済みU-Netと比較して23.94%の相対的改善を達成した。
スペクトログラムの可視化および高いSRMR/FWSegSNRスコアから、この手法はエコー混在音声におけるフォルマント構造を効果的に保持し、処理アーチファクトを低減していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。