Skip to main content
QUICK REVIEW

[論文レビュー] Frequency Gating: Improved Convolutional Neural Networks for Speech Enhancement in the Time-Frequency Domain

Koen Oostermeijer, Qing Wang|arXiv (Cornell University)|Dec 7, 2020
Speech and Audio Processing参考文献 33被引用数 3
ひとこと要約

本稿では、周波数に依存するカーネルを学習する乗法的重みを導入することで、音声強調におけるCNNカーネルの周波数依存性を実現するFrequency Gatingを提案する。標準CNNより性能が向上する。局所的および周波数別ゲーティング機構と、新しいESTOIに基づく損失関数を導入しており、いずれもベースラインモデルを上回る音声品質および聞き取りやすさを達成している。

ABSTRACT

One of the strengths of traditional convolutional neural networks (CNNs) is their inherent translational invariance. However, for the task of speech enhancement in the timefrequency domain, this property cannot be fully exploited due to a lack of invariance in the frequency direction. In this paper we propose to remedy this inefficiency by introducing a method, which we call Frequency Gating, to compute multiplicative weights for the kernels of the CNN in order to make them frequency dependent. Several mechanisms are explored: temporal gating, in which weights are dependent on prior time frames, local gating, whose weights are generated based on a single time frame and the ones adjacent to it, and frequency-wise gating, where each kernel is assigned a weight independent of the input data. Experiments with an autoencoder neural network with skip connections show that both local and frequency-wise gating outperform the baseline and are therefore viable ways to improve CNN-based speech enhancement neural networks. In addition, a loss function based on the extended short-time objective intelligibility score (ESTOI) is introduced, which we show to outperform the standard mean squared error (MSE) loss function.

研究の動機と目的

  • 時間周波数ドメインにおける標準CNNの限界、特に時間的平行移動不変性が周波数的不変性の欠如により完全に活用されない点を解決する。
  • 学習されたゲーティング機構を通じて、CNNカーネルの周波数コンテンツに適応可能にすることで、音声強調の性能を向上させる。
  • 時間的、局所的、周波数別の複数のゲーティング戦略を検討し、時間周波数表現における特徴学習を最も効果的に向上させる戦略を特定する。
  • 拡張短時間目的的聞き取りやすさ(ESTOI)スコアに基づく新しい損失関数を開発・評価し、訓練を聴取的音声品質に適切に一致させる。
  • 周波数依存カーネル重み付けとESTOIベースの訓練が、標準CNNにMSE損失を用いた場合に比べて優れた音声強調結果をもたらすことを実証する。

提案手法

  • 周波数依存カーネルを実現するため、CNNカーネルに乗法的重みを計算するFrequency Gatingを提案。これによりスペクトル特徴のより良いモデリングが可能になる。
  • 3つのゲーティング変種を実装:時間ゲーティング(過去の時間フレームに依存)、局所ゲーティング(現在および隣接フレームに基づく)、周波数別ゲーティング(各カーネルごとに固定された周波数重み)。
  • スキップ接続を備えたU-Netに類似したオートエンコーダーにゲーティング機構を統合し、強調処理中に高分解能特徴を保持する。
  • 拡張短時間目的的聞き取りやすさ(ESTOI)スコアに基づく新しい損失関数を設計し、聴取的音声品質および聞き取りやすさの最適化を図る。
  • エンド・トゥ・エンドのバックプロパゲーションによりネットワークを訓練し、ゲーティング重みとネットワークパラメータをESTOIベースの損失関数を通じて共同最適化する。
  • PESQ、STOI、ESTOIといった標準的な指標を用いてモデルを評価し、異なるゲーティング戦略および損失関数の性能を比較する。

実験結果

リサーチクエスチョン

  • RQ1周波数依存カーネル重み付けは、時間周波数ベース音声強調におけるCNNの性能向上に寄与するか?
  • RQ2時間ゲーティング、局所ゲーティング、周波数別ゲーティングといった異なるゲーティング機構は、音声品質および聞き取りやすさの観点でどのように比較されるか?
  • RQ3ESTOIベースの損失関数を用いた訓練は、標準的なMSE損失よりも優れた強調結果をもたらすか?
  • RQ4Frequency Gatingは、ノイズ抑制の一方で音声の詳細をどれほど効果的に保持できるか?
  • RQ5提案手法は、客観的および主観的音声品質指標の両面で標準CNNを上回るか?

主な発見

  • 局所的および周波数別ゲーティング機構は、いずれも標準CNNベースラインを上回る音声強調性能を達成している。
  • 提案されたESTOIベースの損失関数は、標準的な平均二乗誤差(MSE)損失よりも優れた結果をもたらし、特に音声の聞き取りやすさの向上に顕著である。
  • 周波数別ゲーティングは、提案されたゲーティング戦略の中で最高の性能を示しており、固定された周波数依存カーネル重みが極めて有効であることを示している。
  • 周波数別ゲーティングとESTOI損失の組み合わせにより、STOIやESTOIといった客観的指標で顕著な向上が見られた。
  • Frequency GatingとESTOI損失を組み合わせたモデルは、ベースラインに比べてPESQおよびSTOIスコアが向上し、音声品質および明瞭度の向上を示している。
  • 結果から、ゲーティングによるCNNカーネルの周波数依存化が、時間周波数ドメインにおける特徴学習を向上させ、より強固な音声強調を実現することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。