QUICK REVIEW

[논문 리뷰] Conversational Speech Naturalness Predictor

Anfeng Xu, Yashesh Gaur|arXiv (Cornell University)|2026. 03. 02.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

이 논문은 사전 학습된 인코더(Whisper, AES, WavLM)를 사용한 이중 채널, 두 화자 대화 자연스러움 예측기로 대화 수준 자연스러움과 시스템 자연스러움에 대한 인간 판단과의 상관관계를 개선하고, 로버스트니스를 위한 증강 전략을 포함한다.

ABSTRACT

Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.

연구 동기 및 목표

단일 발화 예측기를 넘어서 대화 수준 자연스러움 평가의 필요성을 동기 부여한다.
대화 역학을 포착하기 위해 사용자 음성과 시스템 음성 모두를 사용하는 이중 채널 자연스러움 예측기를 제안한다.
대화 자연스러움을 위한 가장 우수한 특징을 식별하기 위해 다수의 사전 학습 인코더를 평가한다.
도메인 내외 데이터 세트 및 데이터 증강을 통해 강건성을 평가한다.
Whisper 기반의 이중 채널 모델이 인간 판단과 가장 강한 상관관계를 제공함을 보인다.

제안 방법

사전 학습된 인코더 특징 추출과 MOS 예측용 MLP를 활용하는 두 채널 입력(사용자 및 시스템)을 사용한다.
WavLM, AES, Whisper 인코더를 실험하고 30초 간격으로 구간을 집계해 최종 MOS를 산출한다.
ConvTTS 데이터로 대화 자연스러움과 시스템 자연스러움 타깃으로 학습하고 ConvTTS와 FDX-Conv(OOD)에서 평가한다.
TTS 모델과 Llama-3.1-405B 대본을 사용하여 5,000 시간의 합성 대화를 생성하는 데이터 증강을 적용한다.
예측 MOS와 인간 MOS 간의 Pearson 상관(PCC), Spearman 상관(SRC), 및 MSE를 사용해 평가한다.

실험 결과

연구 질문

RQ1 existing single-utterance naturalness predictors가 대화 수준 자연스러움을 포착하지 못하는가?
RQ2이중 채널 대화 자연스러움 예측기가 단일 채널 또는 기준 예측기보다 인간 판단과 더 잘 상관하는가?
RQ3대화 자연스러움에 대해 가장 강력한 일치성을 보이는 사전 학습 인코더는 무엇인가?
RQ4대화 자연스러움의 분포 외 데이터에서 대규모 합성 데이터 증강이 강건성을 향상시키는가?
RQ5대화 자연스러움에서 명시적 채널 구분(이중 채널 입력)을 유지하는 것이 채널을 결합한 것으로 간주하는 것보다 유리한가?

주요 결과

기존의 자연스러움 예측기는 종종 대화 자연스러움과의 상관관계가 비양의적이다.
Whisper 인코더를 사용하는 이중 채널 예측기가 대화 자연스러움에 대해 가장 높은 상관관계(PCC 0.482)를 달성했다.
ConvTTS에서 시스템 자연스러움에 대해 Whisper와 이중 채널 입력이 PCC 0.570(SRC 0.560)을 달성했다.
OOD FDX-Conv에서 단일 채널 입력의 Whisper가 시스템 자연스러움에서 PCC 0.362(SRC 0.358)을 달성했다.
5,000 시간의 합성 대화 데이터 증강은 OOD 시스템 자연스러움 PCC를 상대적으로 23.45% 증가시켰다(0.358로).
Whisper 기반 모델은 모든 설정에서 AES 및 WavLM보다 일관되게 우수하며, 이중 채널 입력은 일반적으로 도메인 내 데이터에서 단일 채널 입력보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.