QUICK REVIEW

[论文解读] NORESQA: A Framework for Speech Quality Assessment using Non-Matching References

Pranay Manocha, Buye Xu|arXiv (Cornell University)|Sep 16, 2021

Speech and Audio Processing参考文献 72被引用 24

一句话总结

本文提出 NORESQA，一种新颖的语音质量评估框架，可在无需干净参考对或主观标签的情况下，预测语音信号与任意非匹配参考（NMR）之间的相对质量得分。该方法通过在 NMR 上进行对比学习进行训练，实现了 0.816 的 MOS 相关系数，在下游语音增强预训练中表现优于 DNSMOS，展现出在真实世界、低资源环境下的鲁棒性与泛化能力。

ABSTRACT

The perceptual task of speech quality assessment (SQA) is a challenging task for machines to do. Objective SQA methods that rely on the availability of the corresponding clean reference have been the primary go-to approaches for SQA. Clearly, these methods fail in real-world scenarios where the ground truth clean references are not available. In recent years, non-intrusive methods that train neural networks to predict ratings or scores have attracted much attention, but they suffer from several shortcomings such as lack of robustness, reliance on labeled data for training and so on. In this work, we propose a new direction for speech quality assessment. Inspired by human's innate ability to compare and assess the quality of speech signals even when they have non-matching contents, we propose a novel framework that predicts a subjective relative quality score for the given speech signal with respect to any provided reference without using any subjective data. We show that neural networks trained using our framework produce scores that correlate well with subjective mean opinion scores (MOS) and are also competitive to methods such as DNSMOS, which explicitly relies on MOS from humans for training networks. Moreover, our method also provides a natural way to embed quality-related information in neural networks, which we show is helpful for downstream tasks such as speech enhancement.

研究动机与目标

解决全参考和非侵入式 SQA 方法的局限性，这些方法需要干净参考或嘈杂的主观标签。
实现在干净参考不可用的真实场景中的语音质量评估。
利用神经网络实现类人相对质量比较——在无需内容对齐的情况下比较语音信号。
提供一种可微分的无监督训练信号，以提升语音增强等下游任务中的泛化能力。
通过利用与 NMR 的成对比较来学习质量，减少对大规模、嘈杂主观数据集的依赖。

提出的方法

该框架采用对比学习目标，使模型学习预测测试语音信号与非匹配参考（NMR）之间的相对质量。
NMR 从多样化且已知质量的参考池中采样，为质量评估提供依据，而无需内容对齐。
模型通过最小化对比损失进行训练，当测试信号质量更高时，使其质量得分更接近 NMR 的质量得分。
该框架是可微分的，可作为端到端语音增强模型中的预训练目标。
该方法在预训练期间无需成对的干净-噪声数据，从而可利用大规模未配对的噪声数据。
该框架通过 2AFC（两选一生）任务和下游语音增强微调进行评估。

实验结果

研究问题

RQ1神经网络能否在无干净参考信号的情况下，仅通过非匹配参考学习相对质量评估？
RQ2使用 NMR 的相对质量预测是否能比现有非侵入式方法获得更高的主观 MOS 相关系数？
RQ3该框架能否作为预训练目标，用于在无成对干净数据的情况下提升语音增强性能？
RQ4在各种扰动下，该框架与 DNSMOS 相比，在鲁棒性和泛化能力方面表现如何？
RQ5与绝对评分方法相比，使用 NMR 的对比学习目标是否能降低质量预测中的方差和噪声？

主要发现

NORESQA 框架在 VCC2018 数据集上实现了 81.6% 的 2AFC 准确率，优于 DNSMOS（68.7%），并与主观 MOS 显示出强相关性。
该方法在 VCC2018 数据集上与 MOS 的皮尔逊相关系数达到 0.816，表明与人类感知高度一致。
使用 NORESQA 进行预训练可使语音增强模型在所有数据划分（33%、66%、100%）下，所有五个客观指标（PESQ、STOI、SNRseg、CSIG、CBAK、COVL）均得到提升。
NORESQA 预训练带来的增益在高信噪比（SNR）条件下最为显著，此时感知退化细微，更难学习。
该框架通过在未配对数据上进行无监督对比训练，减少了对大规模、嘈杂主观数据集的依赖。
该方法表明，使用 NMR 的相对质量评估是全参考和基于绝对评分的 SQA 方法的可行且有效的替代方案。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。