QUICK REVIEW

[论文解读] Conversational Speech Naturalness Predictor

Anfeng Xu, Yashesh Gaur|arXiv (Cornell University)|Mar 2, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

本论文提出一个双通道、双说话人对话自然度预测模型，使用预训练编码器（Whisper、AES、WavLM）以提高对话层级自然度和系统自然度与人工评估的相关性，并包含一个鲁棒性增强策略。

ABSTRACT

Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.

研究动机与目标

证明面向对话级自然度评估的必要性，超越单句预测的局限。
提出一个双通道自然度预测器，利用用户与系统音频捕捉对话动态。
评估多种预训练编码器，找出对话自然度表现最佳的特征。
通过领域内与领域外数据集及数据增强来评估鲁棒性。
表明基于 Whisper 的双通道模型与人工评估具有最强相关性。

提出的方法

采用两通道输入（用户与系统），结合预训练编码器特征提取与用于 MOS 预测的 MLP。
尝试 WavLM、AES 与 Whisper 编码器；按每30秒片段聚合以产生最终 MOS。
在 ConvTTS 数据上以对话自然度与系统自然度目标进行训练；在 ConvTTS 与 FDX-Conv（OOD）上评估。
通过使用 TTS 模型与 Llama-3.1-405B 字幕，生成 5,000 小时的合成对话来进行数据增强。
使用预测 MOS 与人工 MOS 的 Pearson 相关系数（PCC）、Spearman 相关系数（SRC）和均方误差（MSE）进行评估。

实验结果

研究问题

RQ1现有的单句自然度预测器是否无法捕捉对话层面的自然度？
RQ2与单通道或基线预测器相比，双通道对话自然度预测器是否更能与人工评估对齐？
RQ3哪种预训练编码器在对话自然度方面与人工评估的对齐度最高？
RQ4大规模合成数据增强是否在分布转移（OOD）下提升对话自然度的鲁棒性？
RQ5保持显式通道分离（双通道输入）是否比将通道合并（单通道）对对话自然度更有利？

主要发现

现有自然度预测器往往与对话自然度相关性为非正。
使用 Whisper 编码器的双通道预测器在对话自然度上达到最高相关性（PCC 0.482）。
在 ConvTTS 的系统自然度上，Whisper 双通道输入的 PCC 为 0.570（SRC 0.560）。
在 OOD 的 FDX-Conv 上，单通道 Whisper 的系统自然度 PCC 为 0.362（SRC 0.358）。
通过 5,000 小时合成对话的数据增强使 OOD 的系统自然度 PCC 相对提升 23.45%（达到 0.358）。
Whisper 为基础的模型在所有设定中均优于 AES 和 WavLM；在经常性的数据中，双通道输入通常优于单通道输入。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。