QUICK REVIEW

[论文解读] Exploring the Best Loss Function for DNN-Based Low-latency Speech Enhancement with Temporal Convolutional Networks

Yuichiro Koyama, Tyler Vuong|arXiv (Cornell University)|May 23, 2020

Speech and Audio Processing参考文献 35被引用 43

一句话总结

本论文在两个数据集上评估 STFT-TCN 和 Conv-TasNet 的低延迟语音增强方法，结果表明基于 PASE 的损失在小数据集上提升性能，而 SNR 损失在感知指标上可超越 SI-SNR。它还提供了一个低延迟设置的 DNS Challenge 提交。

ABSTRACT

Recently, deep neural networks (DNNs) have been successfully used for speech enhancement, and DNN-based speech enhancement is becoming an attractive research area. While time-frequency masking based on the short-time Fourier transform (STFT) has been widely used for DNN-based speech enhancement over the last years, time domain methods such as the time-domain audio separation network (TasNet) have also been proposed. The most suitable method depends on the scale of the dataset and the type of task. In this paper, we explore the best speech enhancement algorithm on two different datasets. We propose a STFT-based method and a loss function using problem-agnostic speech encoder (PASE) features to improve subjective quality for the smaller dataset. Our proposed methods are effective on the Voice Bank + DEMAND dataset and compare favorably to other state-of-the-art methods. We also implement a low-latency version of TasNet, which we submitted to the DNS Challenge and made public by open-sourcing it. Our model achieves excellent performance on the DNS Challenge dataset.

研究动机与目标

评估时域或基于 STFT 的方法在小数据集与大数据集上是否能带来更好的感知质量。
研究用于优化感知语音质量的损失函数（SI-SNR、SNR、PCMSE、PASE 基损失）的有效性。
提出 STFT-TCN 作为带固定编码器/解码器的 STFT 编码器/解码器混合，以在小数据集上提升性能。
实现一个低延迟版本的 TasNet，并评估其实时性可行性和性能。
评估在训练损失中使用 PASE 特征对提升主观质量相关指标的作用。

提出的方法

通过用固定的 STFT/ISTFT 操作替换 Conv-TasNet 中可训练的编码器/解码器，引入 STFT-TCN。
通过去除掩码估计块中的 sigmoid 使掩码可以取负值。
使用混合因果/非因果的 TCN 设置以实现受控延迟（例如，最多 40 ms 预估时延）。
比较损失函数：SI-SNR、SNR、PCMSE，以及将 PASE 特征 MSE 与 PCMSE 结合的基于 PASE 的损失（PASEMSE）。
评估 STFT-TCN 的两种输入表示：W_SPEC 与 W_AP（振幅-相位形式），并选择更优者。
调整网络使其输出 K=2 个源（语音+噪声），以改进感知指标。
在 Voice Bank + DEMAND (VBD) 与 DNS Challenge 数据集上进行实验；在扩展到 DNS 之前对 VBD 进行消融实验。

实验结果

研究问题

RQ1哪种架构组合（基于 STFT 的与时域）及损失函数在小型与大型语音增强数据集上能带来最佳感知质量？
RQ2将 PASE 特征纳入损失函数（PASEMSE）是否提高与主观语音质量相关的指标在小数据集上的表现？
RQ3在 DNS Challenge 约束下，低延迟的 STFT-TCN 还是 Conv-TasNet 更适合实时或近实时部署？
RQ4学习语音和噪声掩码（K=2）是否比仅估计语音信号（K=1）在这些任务中提升感知质量？
RQ5在标准感知指标（PESQ、CSIG、CBAK、COVL）上，带固定编码器/解码器的 STFT-TCN 相对于完全可训练的 Conv-TasNet 的表现如何？

主要发现

在 Voice Bank + DEMAND (VBD) 数据集上，使用基于 PASE 的损失的 STFT-TCN 实现了高感知质量指标。
STFT-TCN 在 VBD 上通常在感知指标上优于 Conv-TasNet，而 Conv-TasNet 在更大的 DNS 数据集上可能表现更好。
在这些实验中，SNR 损失比 SI-SNR 损失更适合感知质量指标。
PCMSE 提升了 STFT-TCN 在感知指标上的表现，但对 Conv-TasNet 无效。
使用 PASEMSE（PASE 特征损失与 PCMSE 的结合）在 VBD 上带来最强的感知质量结果。
带 PASE 损失的 STFT-TCN 在 VBD 上接近或超过若干现有方法，尽管 PHASEN（我们的实现）仍是一个接近的竞争者，某些结果取决于超参数。
在 DNS 数据集上，Conv-TasNet 采用 SNR 损失在所测试配置中实现了最佳的感知指标，而基于 PASE 的损失在这个较大数据集上效果较差。
非因果层即使在短暂的前瞻（33–40 ms）下也提供有用的未来上下文增益，并且可与更深的非因果配置相竞争。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。