[论文解读] Conversational Speech Naturalness Predictor
本论文提出一个双通道、双说话人对话自然度预测模型,使用预训练编码器(Whisper、AES、WavLM)以提高对话层级自然度和系统自然度与人工评估的相关性,并包含一个鲁棒性增强策略。
Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.
研究动机与目标
- 证明面向对话级自然度评估的必要性,超越单句预测的局限。
- 提出一个双通道自然度预测器,利用用户与系统音频捕捉对话动态。
- 评估多种预训练编码器,找出对话自然度表现最佳的特征。
- 通过领域内与领域外数据集及数据增强来评估鲁棒性。
- 表明基于 Whisper 的双通道模型与人工评估具有最强相关性。
提出的方法
- 采用两通道输入(用户与系统),结合预训练编码器特征提取与用于 MOS 预测的 MLP。
- 尝试 WavLM、AES 与 Whisper 编码器;按每30秒片段聚合以产生最终 MOS。
- 在 ConvTTS 数据上以对话自然度与系统自然度目标进行训练;在 ConvTTS 与 FDX-Conv(OOD)上评估。
- 通过使用 TTS 模型与 Llama-3.1-405B 字幕,生成 5,000 小时的合成对话来进行数据增强。
- 使用预测 MOS 与人工 MOS 的 Pearson 相关系数(PCC)、Spearman 相关系数(SRC)和均方误差(MSE)进行评估。
实验结果
研究问题
- RQ1现有的单句自然度预测器是否无法捕捉对话层面的自然度?
- RQ2与单通道或基线预测器相比,双通道对话自然度预测器是否更能与人工评估对齐?
- RQ3哪种预训练编码器在对话自然度方面与人工评估的对齐度最高?
- RQ4大规模合成数据增强是否在分布转移(OOD)下提升对话自然度的鲁棒性?
- RQ5保持显式通道分离(双通道输入)是否比将通道合并(单通道)对对话自然度更有利?
主要发现
- 现有自然度预测器往往与对话自然度相关性为非正。
- 使用 Whisper 编码器的双通道预测器在对话自然度上达到最高相关性(PCC 0.482)。
- 在 ConvTTS 的系统自然度上,Whisper 双通道输入的 PCC 为 0.570(SRC 0.560)。
- 在 OOD 的 FDX-Conv 上,单通道 Whisper 的系统自然度 PCC 为 0.362(SRC 0.358)。
- 通过 5,000 小时合成对话的数据增强使 OOD 的系统自然度 PCC 相对提升 23.45%(达到 0.358)。
- Whisper 为基础的模型在所有设定中均优于 AES 和 WavLM;在经常性的数据中,双通道输入通常优于单通道输入。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。