QUICK REVIEW

[论文解读] Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model based on BLSTM

Szu‐Wei Fu, Yu Tsao|arXiv (Cornell University)|Aug 16, 2018

Speech and Audio Processing参考文献 22被引用 21

一句话总结

本文提出 Quality-Net，一种端到端的非侵入式语音质量评估模型，采用双向长短期记忆（BLSTM）网络，在无需干净参考信号的情况下预测话语级别的语音质量。通过利用带约束的帧级评估和遗忘门偏置初始化，Quality-Net 在嘈杂语音上的 PESQ 相关系数达到 0.9，在增强语音上的相关系数达到 0.84，展现出在实际语音处理应用中的强大潜力。

ABSTRACT

Nowadays, most of the objective speech quality assessment tools (e.g., perceptual evaluation of speech quality (PESQ)) are based on the comparison of the degraded/processed speech with its clean counterpart. The need of a "golden" reference considerably restricts the practicality of such assessment tools in real-world scenarios since the clean reference usually cannot be accessed. On the other hand, human beings can readily evaluate the speech quality without any reference (e.g., mean opinion score (MOS) tests), implying the existence of an objective and non-intrusive (no clean reference needed) quality assessment mechanism. In this study, we propose a novel end-to-end, non-intrusive speech quality evaluation model, termed Quality-Net, based on bidirectional long short-term memory. The evaluation of utterance-level quality in Quality-Net is based on the frame-level assessment. Frame constraints and sensible initializations of forget gate biases are applied to learn meaningful frame-level quality assessment from the utterance-level quality label. Experimental results show that Quality-Net can yield high correlation to PESQ (0.9 for the noisy speech and 0.84 for the speech processed by speech enhancement). We believe that Quality-Net has potential to be used in a wide variety of applications of speech signal processing.

研究动机与目标

开发一种无需干净参考信号的非侵入式语音质量评估模型。
解决传统客观指标（如 PESQ）依赖于“黄金”参考信号的实用限制。
通过帧级预测实现从话语级标签端到端学习语音质量。
提升在实际场景中缺乏干净参考信号时语音质量估计的鲁棒性与准确性。

提出的方法

模型采用双向长短期记忆（BLSTM）架构，以捕捉语音帧中的长程依赖关系。
将帧级质量预测聚合，以估计整体话语级质量。
应用帧级约束，确保训练过程中帧级输出与话语级质量标签保持一致。
通过合理取值初始化遗忘门偏置，帮助网络在训练初期即学习有意义的质量表示。
使用话语级平均意见得分（MOS）标签作为监督信号，进行端到端训练。
该架构通过直接将原始降质语音映射到质量得分，无需干净参考信号，实现了非侵入式评估。

实验结果

研究问题

RQ1深度学习模型是否能在无干净参考信号的情况下准确预测语音质量？
RQ2如何有效约束帧级质量预测，使其与话语级质量标签对齐？
RQ3遗忘门偏置初始化对 BLSTM 模型中学习有意义质量表示有何影响？
RQ4端到端的非侵入式模型在真实降质语音上与 PESQ 的相关性能达到何种程度？
RQ5所提出方法是否无需微调即可泛化到嘈杂信号和语音增强信号？

主要发现

Quality-Net 在嘈杂语音上的 PESQ 相关系数达到 0.9，表明其在降质信号上表现优异。
在经过语音增强的信号上，模型与 PESQ 的相关系数达到 0.84，证明其在不同处理条件下均具备鲁棒性。
使用帧级约束和遗忘门偏置初始化显著提升了训练稳定性和模型性能。
模型仅依靠话语级标签即可成功学习非侵入式质量评估，无需干净参考信号。
结果证实，通过帧级监督进行端到端训练，可在真实语音处理应用中生成高质量的预测结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。