QUICK REVIEW

[論文レビュー] Boosting Objective Scores of Speech Enhancement Model through MetricGAN Post-Processing

Szu‐Wei Fu, Chien-Feng Liao|arXiv (Cornell University)|Jun 18, 2020

Speech and Audio Processing参考文献 15被引用数 5

ひとこと要約

この論文では、PESQスコアを向上させるために、位置符号化を畳み込み層に置き換えた畳み込み型Transformerを微調整するMetricGANベースのポストプロセッシングフレームワークを提案する。この手法は、客観的および主観的評価の両方でDNSチャレンジのベースラインを著しく上回る。

ABSTRACT

The Transformer architecture has shown its superior ability than recurrent neural networks on many different natural language processing applications. Therefore, this study applies a modified Transformer on the speech enhancement task. Specifically, the positional encoding may not be necessary and hence is replaced by convolutional layers. To further improve PESQ scores of enhanced speech, the L_1 pre-trained Transformer is fine-tuned by MetricGAN framework. The proposed MetricGAN can be treated as a general post-processing module to further boost interested objective scores. The experiments are conducted using the data sets provided by the organizer of the Deep Noise Suppression (DNS) challenge. Experimental results demonstrate that the proposed system outperforms the challenge baseline in both subjective and objective evaluation with a large margin.

研究の動機と目的

音声強調モデルにおける客観的音声品質スコア（特にPESQ）を向上させること。
標準的なTransformerが音声強調タスクにおいて制限を受ける要因を解消するため、位置符号化を畳み込み層に置き換えること。
MetricGANフレームワークを一般化されたポストプロセッシングモジュールとして活用し、特定の客観的スコアを向上させること。
提案手法をDNSチャレンジの実世界のノイズ混在音声データ上で評価すること。

提案手法

正弦波位置符号化を畳み込み層に置き換えた変更されたTransformerアーキテクチャを採用し、音声強調タスクに適した構造とする。
クリーン音声と強調済み音声のペアを用いてL1損失を用いて事前学習し、音声再構成を学習する。
事前学習済みモデルを、PESQなどの客観的品質スコアを最適化するMetricGANフレームワークを用いて微調整する。
MetricGANは、目的の客観的スコアを最大化するように出力を精練するポストプロセッシングモジュールとして機能する。
敵対的学習を用いてエンドツーエンドで訓練する。この際、識別器は実際の音声と強調済み音声を、客観的スコアの品質に基づいて区別するように学習する。
性能の妥当性を検証するため、DNSチャレンジデータセットを用いて複数の評価指標で実験を実施する。

実験結果

リサーチクエスチョン

RQ1位置符号化を畳み込み層に置き換えることで、Transformerの音声強調タスクにおける性能が向上するか？
RQ2事前学習済みTransformerにポストプロセッサとしてMetricGANフレームワークを適用した場合、PESQスコアはどの程度向上するか？
RQ3提案手法は、DNSチャレンジのベースラインと比較して、より優れた客観的および主観的音声品質を達成するか？
RQ4MetricGANポストプロセッシングモジュールは、PESQ以外の他の客観的スコアの向上に対しても一般化可能か？

主な発見

提案手法は、客観的および主観的評価の両方でDNSチャレンジのベースラインを著しく上回る。
位置符号化を畳み込み層に置き換えることで、音声強調タスクにおけるモデル性能が向上する。
事前学習済みTransformerをMetricGANで微調整することで、PESQスコアが著しく向上する。
MetricGANポストプロセッシングモジュールは、メインモデルの再訓練を必要とせず、効果的に客観的スコアを向上させる。
ベースラインと比較して大きなスコアの向上を達成しており、提案フレームワークの有効性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。