QUICK REVIEW

[论文解读] AutoMOS: Learning a non-intrusive assessor of naturalness-of-speech

Brian Patton, Yannis Agiomyrgiannakis|arXiv (Cornell University)|Nov 28, 2016

Topic Modeling参考文献 13被引用 57

一句话总结

AutoMOS 提出了一种深度循环神经网络，仅从原始音频波形预测语音自然度（MOS），无需参考信号，可在合成器级别实现 0.949 的斯皮尔曼等级相关系数——接近人工评分员的表现。该模型使用原始波形，并通过堆叠的 LSTM 学习长期时间依赖关系，从而实现非侵入式、可扩展的 TTS 质量评估与自动化调优。

ABSTRACT

Developers of text-to-speech synthesizers (TTS) often make use of human raters to assess the quality of synthesized speech. We demonstrate that we can model human raters' mean opinion scores (MOS) of synthesized speech using a deep recurrent neural network whose inputs consist solely of a raw waveform. Our best models provide utterance-level estimates of MOS only moderately inferior to sampled human ratings, as shown by Pearson and Spearman correlations. When multiple utterances are scored and averaged, a scenario common in synthesizer quality assessment, AutoMOS achieves correlations approaching those of human raters. The AutoMOS model has a number of applications, such as the ability to explore the parameter space of a speech synthesizer without requiring a human-in-the-loop.

研究动机与目标

开发一种非侵入式、自动化的文本到语音（TTS）自然度评估系统，避免高昂的人工评分成本。
仅使用原始音频波形作为输入，建模人类平均意见得分（MOS），而无需清洁参考信号。
通过替代人工参与的评估方式，实现可扩展的自动化调优与 TTS 系统的持续质量监控。
在话语级别和合成器级别均实现与人工评分高度相关的预测结果，即使以 0.5 分为增量预测 MOS 亦然。
探究深度学习是否能够学习到与 TTS 引擎内部结构或损失函数无关的内在语音自然度模式。

提出的方法

在原始 16kHz 音频波形上训练具有堆叠长短期记忆（LSTM）层的深度循环神经网络，以捕捉长期时间依赖关系。
使用对数梅尔倒谱图或时间池化的 1D 卷积作为输入表征，并添加速度与加速度特征。
对最后一层 LSTM 的输出在时间维度上进行最大池化，并通过全连接层预测 MOS。
采用三种损失策略进行训练：在预测 MOS 上使用 L2 损失，在 9 类评分分布上使用交叉熵损失，以及在高斯分布下的对数似然损失。
引入真实合成器的可学习嵌入向量以正则化训练过程，提升泛化能力。
使用五折交叉验证并按合成器级别划分数据，确保无数据泄露，实现真实可靠的评估。

实验结果

研究问题

RQ1仅使用原始音频波形而无需参考信号，深度学习模型能否准确预测合成语音的人工 MOS？
RQ2该模型在话语级别和聚合的合成器级别上与人工评分的相关性如何？
RQ3该模型能否在不同 TTS 合成器之间泛化，并在文本分布或合成参数存在差异时仍保持高预测准确性？
RQ4当以离散的 0.5 分增量预测 MOS 时，模型性能是否依然稳健？
RQ5AutoMOS 是否可有效用于 TTS 系统的自动化调优与持续质量监控？

主要发现

在合成器级别，AutoMOS 预测值与真实 MOS 之间的斯皮尔曼等级相关系数达到 0.949，接近人工评分样本的 0.986 相关系数。
当对 10 个或以上话语的预测结果进行平均时，AutoMOS 的皮尔逊相关系数为 0.933，斯皮尔曼相关系数为 0.925，与人工评分表现极为接近。
在合成器级别，对 0.5 分量化 MOS 的预测，RMSE 为 0.075，皮尔逊相关系数为 0.935，斯皮尔曼相关系数为 0.938。
五折交叉验证中，各组预测 MOS 接近的样本的中位校准相关系数超过 0.9，表明预测分布具有极强的可靠性。
在话语级别，该模型显著优于仅含偏置的基线模型（RMSE 0.618）和基于长度的神经网络（RMSE 0.553），在合成器级别也取得了显著提升。
模型对量化处理具有鲁棒性，且避免对极端评分的过度预测，准确反映了人类 MOS 数据的自然分布。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。