QUICK REVIEW

[論文レビュー] Conversational Speech Naturalness Predictor

Anfeng Xu, Yashesh Gaur|arXiv (Cornell University)|Mar 2, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

この論文は、事前学習済みエンコーダ（Whisper、AES、WavLM）を用いたデュアルチャネル、2話者会話自然さ予測モデルを提案し、会話レベルの自然さとシステム自然さの人間評価との相関を向上させ、堅牢性のためのデータ拡張戦略を含む。

ABSTRACT

Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.

研究の動機と目的

単一発話予測子を超える会話レベルの自然さ評価の必要性を動機づける。
ユーザー音声とシステム音声の両方を用いて対話ダイナミクスを捉えるデュアルチャネル自然さ予測子を提案する。
会話自然さのための最良の特徴を特定するために複数の事前学習エンコーダを評価する。
インドメインおよびアウトオブドメインのデータセットとデータ拡張を通じた堅牢性を評価する。
Whisperベースのデュアルチャネルモデルが人間の判断との相関を最も強く示すことを示す。

提案手法

事前学習エンコーダ特徴抽出とMOS予測のMLPを用いた2チャンネル入力（ユーザーとシステム）。
WavLM、AES、Whisperエンコーダを用いた実験；30秒ごとにセグメントを集約して最終MOSを生成。
ConvTTSデータで対話自然さとシステム自然さをターゲットに学習；ConvTTSおよびFDX-Conv（OOD）で評価。
TTSモデルとLlama-3.1-405Bトランスクリプトを用いて5,000時間分の合成会話を生成することによるデータ拡張を適用。
予測MOSと人間 MOS とのPearson相関（PCC）、Spearman相関（SRC）、およびMSEで評価。

実験結果

リサーチクエスチョン

RQ1既存の単一発話自然さ予測子は会話レベルの自然さを捉えきれないのか。
RQ2デュアルチャネルの会話自然さ予測子は単一チャネルやベースライン予測子より人間判断と高い相関を持つのか。
RQ3会話自然さに対して最も強い整合性を示す事前学習エンコーダはどれか。
RQ4大規模な合成データ拡張は分布シフト（OOD）下での会話自然さの堅牢性を改善するのか。
RQ5明示的なチャネル分離（デュアルチャネル入力）を維持することは、チャネルを統合する（単一チャネル）より会話自然さに有益か。

主な発見

既存の自然さ予測子は会話自然さと正の相関を示さないことが多い。
Whisperエンコーダを用いたデュアルチャネル予測子が、試験されたモデルの中で会話自然さの相関が最も高く（PCC 0.482）、最も高い相関を達成。
ConvTTSにおけるシステム自然さでは、デュアルチャネル入力のWhisperがPCC 0.570（SRC 0.560）を達成。
OOD FDX-Convでは、単一チャネル入力のWhisperがPCC 0.362（SRC 0.358）を達成。
5,000時間の合成会話によるデータ拡張はOODでのシステム自然さのPCCを相対的に23.45%向上（0.358へ）。
Whisperベースのモデルはすべての設定でAESおよびWavLMを上回り、デュアルチャネル入力はインドメインデータで一般に単一チャネル入力よりも性能が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。