Skip to main content
QUICK REVIEW

[论文解读] Conversational Speech Naturalness Predictor

Anfeng Xu, Yashesh Gaur|arXiv (Cornell University)|Mar 2, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

本论文提出一个双通道、双说话人对话自然度预测模型,使用预训练编码器(Whisper、AES、WavLM)以提高对话层级自然度和系统自然度与人工评估的相关性,并包含一个鲁棒性增强策略。

ABSTRACT

Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.

研究动机与目标

  • 证明面向对话级自然度评估的必要性,超越单句预测的局限。
  • 提出一个双通道自然度预测器,利用用户与系统音频捕捉对话动态。
  • 评估多种预训练编码器,找出对话自然度表现最佳的特征。
  • 通过领域内与领域外数据集及数据增强来评估鲁棒性。
  • 表明基于 Whisper 的双通道模型与人工评估具有最强相关性。

提出的方法

  • 采用两通道输入(用户与系统),结合预训练编码器特征提取与用于 MOS 预测的 MLP。
  • 尝试 WavLM、AES 与 Whisper 编码器;按每30秒片段聚合以产生最终 MOS。
  • 在 ConvTTS 数据上以对话自然度与系统自然度目标进行训练;在 ConvTTS 与 FDX-Conv(OOD)上评估。
  • 通过使用 TTS 模型与 Llama-3.1-405B 字幕,生成 5,000 小时的合成对话来进行数据增强。
  • 使用预测 MOS 与人工 MOS 的 Pearson 相关系数(PCC)、Spearman 相关系数(SRC)和均方误差(MSE)进行评估。

实验结果

研究问题

  • RQ1现有的单句自然度预测器是否无法捕捉对话层面的自然度?
  • RQ2与单通道或基线预测器相比,双通道对话自然度预测器是否更能与人工评估对齐?
  • RQ3哪种预训练编码器在对话自然度方面与人工评估的对齐度最高?
  • RQ4大规模合成数据增强是否在分布转移(OOD)下提升对话自然度的鲁棒性?
  • RQ5保持显式通道分离(双通道输入)是否比将通道合并(单通道)对对话自然度更有利?

主要发现

  • 现有自然度预测器往往与对话自然度相关性为非正。
  • 使用 Whisper 编码器的双通道预测器在对话自然度上达到最高相关性(PCC 0.482)。
  • 在 ConvTTS 的系统自然度上,Whisper 双通道输入的 PCC 为 0.570(SRC 0.560)。
  • 在 OOD 的 FDX-Conv 上,单通道 Whisper 的系统自然度 PCC 为 0.362(SRC 0.358)。
  • 通过 5,000 小时合成对话的数据增强使 OOD 的系统自然度 PCC 相对提升 23.45%(达到 0.358)。
  • Whisper 为基础的模型在所有设定中均优于 AES 和 WavLM;在经常性的数据中,双通道输入通常优于单通道输入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。