[논문 리뷰] Conversational Speech Naturalness Predictor
이 논문은 사전 학습된 인코더(Whisper, AES, WavLM)를 사용한 이중 채널, 두 화자 대화 자연스러움 예측기로 대화 수준 자연스러움과 시스템 자연스러움에 대한 인간 판단과의 상관관계를 개선하고, 로버스트니스를 위한 증강 전략을 포함한다.
Evaluation of conversational naturalness is essential for developing human-like speech agents. However, existing speech naturalness predictors are often designed to assess utterances from a single speaker, failing to capture conversation-level naturalness qualities. In this paper, we present a framework for an automatic naturalness predictor for two-speaker, multi-turn conversations. We first show that existing naturalness estimators have low, or sometimes even negative, correlations with conversational naturalness, based on conversational recordings annotated with human ratings. We then propose a dual-channel naturalness estimator, in which we investigate multiple pre-trained encoders with data augmentation. Our proposed model achieves substantially higher correlation with human judgments compared to existing naturalness predictors for both in-domain and out-of-domain conditions.
연구 동기 및 목표
- 단일 발화 예측기를 넘어서 대화 수준 자연스러움 평가의 필요성을 동기 부여한다.
- 대화 역학을 포착하기 위해 사용자 음성과 시스템 음성 모두를 사용하는 이중 채널 자연스러움 예측기를 제안한다.
- 대화 자연스러움을 위한 가장 우수한 특징을 식별하기 위해 다수의 사전 학습 인코더를 평가한다.
- 도메인 내외 데이터 세트 및 데이터 증강을 통해 강건성을 평가한다.
- Whisper 기반의 이중 채널 모델이 인간 판단과 가장 강한 상관관계를 제공함을 보인다.
제안 방법
- 사전 학습된 인코더 특징 추출과 MOS 예측용 MLP를 활용하는 두 채널 입력(사용자 및 시스템)을 사용한다.
- WavLM, AES, Whisper 인코더를 실험하고 30초 간격으로 구간을 집계해 최종 MOS를 산출한다.
- ConvTTS 데이터로 대화 자연스러움과 시스템 자연스러움 타깃으로 학습하고 ConvTTS와 FDX-Conv(OOD)에서 평가한다.
- TTS 모델과 Llama-3.1-405B 대본을 사용하여 5,000 시간의 합성 대화를 생성하는 데이터 증강을 적용한다.
- 예측 MOS와 인간 MOS 간의 Pearson 상관(PCC), Spearman 상관(SRC), 및 MSE를 사용해 평가한다.
실험 결과
연구 질문
- RQ1 existing single-utterance naturalness predictors가 대화 수준 자연스러움을 포착하지 못하는가?
- RQ2이중 채널 대화 자연스러움 예측기가 단일 채널 또는 기준 예측기보다 인간 판단과 더 잘 상관하는가?
- RQ3대화 자연스러움에 대해 가장 강력한 일치성을 보이는 사전 학습 인코더는 무엇인가?
- RQ4대화 자연스러움의 분포 외 데이터에서 대규모 합성 데이터 증강이 강건성을 향상시키는가?
- RQ5대화 자연스러움에서 명시적 채널 구분(이중 채널 입력)을 유지하는 것이 채널을 결합한 것으로 간주하는 것보다 유리한가?
주요 결과
- 기존의 자연스러움 예측기는 종종 대화 자연스러움과의 상관관계가 비양의적이다.
- Whisper 인코더를 사용하는 이중 채널 예측기가 대화 자연스러움에 대해 가장 높은 상관관계(PCC 0.482)를 달성했다.
- ConvTTS에서 시스템 자연스러움에 대해 Whisper와 이중 채널 입력이 PCC 0.570(SRC 0.560)을 달성했다.
- OOD FDX-Conv에서 단일 채널 입력의 Whisper가 시스템 자연스러움에서 PCC 0.362(SRC 0.358)을 달성했다.
- 5,000 시간의 합성 대화 데이터 증강은 OOD 시스템 자연스러움 PCC를 상대적으로 23.45% 증가시켰다(0.358로).
- Whisper 기반 모델은 모든 설정에서 AES 및 WavLM보다 일관되게 우수하며, 이중 채널 입력은 일반적으로 도메인 내 데이터에서 단일 채널 입력보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.