QUICK REVIEW

[論文レビュー] Exploring the Best Loss Function for DNN-Based Low-latency Speech Enhancement with Temporal Convolutional Networks

Yuichiro Koyama, Tyler Vuong|arXiv (Cornell University)|May 23, 2020

Speech and Audio Processing参考文献 35被引用数 43

ひとこと要約

この論文は、低遅延音声強調のための STFT-TCN と Conv-TasNet アプローチを2つのデータセットで評価し、PASE ベースの損失が小データで性能を改善する一方、SNR 損失は知覚指標で SI-SNR を上回ることがあることを示す。DNS Challenge 提出用の低遅延設定も提供している。

ABSTRACT

Recently, deep neural networks (DNNs) have been successfully used for speech enhancement, and DNN-based speech enhancement is becoming an attractive research area. While time-frequency masking based on the short-time Fourier transform (STFT) has been widely used for DNN-based speech enhancement over the last years, time domain methods such as the time-domain audio separation network (TasNet) have also been proposed. The most suitable method depends on the scale of the dataset and the type of task. In this paper, we explore the best speech enhancement algorithm on two different datasets. We propose a STFT-based method and a loss function using problem-agnostic speech encoder (PASE) features to improve subjective quality for the smaller dataset. Our proposed methods are effective on the Voice Bank + DEMAND dataset and compare favorably to other state-of-the-art methods. We also implement a low-latency version of TasNet, which we submitted to the DNS Challenge and made public by open-sourcing it. Our model achieves excellent performance on the DNS Challenge dataset.

研究の動機と目的

小規模データセットと大規模データセットで、時系列ドメインベースのアプローチと STFT ベースのアプローチのどちらが知覚品質で優れているかを評価する。
知覚音声品質を最適化するための損失関数（SI-SNR、SNR、PCMSE、PASE ベース）を調査する。
小規模データセットでの性能を向上させるため、固定エンコーダ/デコーダを備えた STFT-TCN という STFT エンコーダ/デコーダ・ハイブリッドを提案する。
TasNet の低遅延版を実現し、そのリアルタイム実現性と性能を評価する。
訓練損失に PASE 特徴を使用することが主観的品質関連指標の改善に寄与するかを評価する。

提案手法

Conv-TasNet の trainable なエンコーダ/デコーダを固定の STFT/ISTFT 操作に置き換えることで STFT-TCN を導入する。
マスク推定ブロックのシグモイドを除去してマスクが負値を取れるようにする。
遅延を制御可能にするため、因果/非因果の混合 TC N セットアップを用い、最大で 40 ms の見越し遅延を実現する。
損失関数を比較する：SI-SNR、SNR、PCMSE、そして PCMSE と組み合わせた PASE 特徴 MSE を含む PASEMSE。
STFT-TCN の入力表現として W_SPEC と W_AP（振幅-位相形式）の二つを評価し、より良い方を選択する。
より良い知覚指標を得るためにネットワークを出力するソースを K=2（ speech + noise）に調整する。
Voice Bank + DEMAND (VBD) と DNS Challenge データセットで実験を行い、VBD でのアブレーションを実施してから DNS へ展開する。

実験結果

リサーチクエスチョン

RQ1アーキテクチャの組み合わせ（STFT ベース vs 時間領域）と損失関数の組み合わせで、小規模と大規模の音声強調データセットにおける知覚品質はどのように変わるか。
RQ2損失関数に PASE 特徴を組み込んだ場合（PASEMSE）は、小規模データセットで主観的音声品質と相関する指標を改善するか。
RQ3DNS Challenge の制約の下で、低遅延STFT-TCN または Conv-TasNet のどちらがリアルタイム/ほぼリアルタイム展開により適しているか。
RQ4これらのタスクで音声マスクとノイズマスクの両方を学習する（K=2）は、音声信号のみを推定する（K=1）場合より知覚品質を改善するか。
RQ5STFT-TCN の固定エンコーダ/デコーダは、標準的な知覚指標（PESQ、CSIG、CBAK、COVL）において、完全に訓練可能な Conv-TasNet と比較してどの程度良いか。

主な発見

Voice Bank + DEMAND (VBD) データセットでは、PASE ベースの損失を用いた STFT-TCN が高い知覚品質指標を達成する。
STFT-TCN は VBD で総じて Conv-TasNet を知覚指標で上回る傾向がある一方で、Conv-TasNet は大規模 DNS データセットでより良い性能を示すことがある。
これらの実験では、SI-SNR 損失より SNR 損失の方が知覚品質指標に適している。
PCMSE は STFT-TCN の知覚指標性能を改善するが Conv-TasNet には効果が薄い。
PASEMSE（PASE特徴損失と PCMSE を組み合わせたもの）は VBD で最も強い知覚品質を示す。
PASE 損失を伴う STFT-TCN は VBD においていくつかの既存手法に近づくか上回るが、PHASEN（実装は当社）も競合的で、ハイパーパラメータ依存の結果がある。
DNS データセットでは、Conv-TasNet が SNR 損失を用いた設定で報告された知覚指標の中で最高を示し、PASE ベースの損失はこの大規模データセットでは効果が薄い。
因果でない層は短い見越し遅延（33–40 ms）でも有用な未来文脈を提供し、より深い非因果構成と競合できる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。