QUICK REVIEW

[논문 리뷰] StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Haishu Zhao, Aokai Hao|arXiv (Cornell University)|2026. 03. 08.

Emotion and Mood Recognition인용 수 0

한 줄 요약

StyleBench은 다회 차에서 발화 속도, 감정, 음량, 음높이 등 말하기 스타일을 제어하는 정도를 정량화하는 다회 차 벤치마크를 제공하며, SLM과 범용 다중언어 모델 간의 차이와 데이터/토크나이저 요인을 강조합니다.

ABSTRACT

Speech language models (SLMs) have significantly extended the interactive capability of text-based Large Language Models (LLMs) by incorporating paralinguistic information. For more realistic interactive experience with customized styles, current SLMs have managed to interpret and control speaking style intensity from user prompts during the dialogue process. However, there remains a lack of systematic benchmarks that quantifies and evaluates the style intensity control ability in conversations. In this paper, we propose StyleBench, a multi-turn dialogue benchmark for comprehensively evaluating the style intensity control ability across four dimensions: emotion, speed, volume, and pitch. Our results reveal the performance gaps between leading SLMs and omni language models (OLMs), suggesting the underlying reasons and promising approaches for future exploration.

연구 동기 및 목표

동기에 대한: 다회 차 대화에서 SLM이 스타일리시 프롬프트를 얼마나 잘 따르는지 정량화할 필요가 있습니다.
목표: 다회 차 대화에서 네 가지 차원에 걸친 스타일 강도 제어를 평가하기 위해 StyleBench를 구축합니다.
목표: 스타일 제어 성능에 영향을 주는 학습 데이터 구성 및 음성 토크나이저와 같은 요인을 분석합니다.

제안 방법

단일 차원에 대해 차별적으로 스타일 강도가 변하는 단일 차원의 다국어 세-turn 대화 데이터셋을 만들습니다.
모든 발화를 CosyVoice2로 합성하고 감정의 경우 참조 음원으로 RAVDESS를 사용합니다; 다른 차원은 FFmpeg 처리로 사용합니다.
자동 스타일 측정과 사람 평가를 결합한 지표를 정의하고, 다회 차에서의 유효성 및 스타일 변화(VSP 및 SVD)를 정량화합니다.
단일 차/다회 차 지시 따름 및 말하기 스타일 제어에 대한 10개의 오픈 소스 SLM을 평가합니다.
학습 데이터 구성 및 음성 토크나이저 설계와 같은 요인을 분석하여 성능 격차의 원인을 설명합니다.

실험 결과

연구 질문

RQ1현재의 SLM들이 단일 차와 다회 차 대화에서 스타일리프 프롬트를 얼마나 잘 따르는가?
RQ2모델이 대화 차에 걸쳐 일관된 의도와 스타일 제어를 유지할 수 있는가?
RQ3감정, 속도, 음량, 음높이를 제어하는 데 있어 모델의 상대적 강점과 약점은 무엇인가?
RQ4학습 데이터 및 음성 토크나이저가 말하기 스타일 제어 성능에 어떤 영향을 미치는가?

주요 결과

대부분의 모델은 단일 차 지시 관련성이 높지만 다회 차 일관성(MRD)이 다양합니다.
일부만이(Qwen2.5-omni, GLM-4-Voice, Kimi-Audio) 60% MRD를 초과하여 다회 차 일관성이 신뢰할 만합니다.
Kimi-Audio와 GLM-4-Voice는 속도(Speed), 음량(Volume), 음높이(Pitch)에서 가장 강한 스타일 제어를 보이며 높은 VSP와 SVD를 나타냅니다.
LLaMA-omni2와 Baichuan-omni-1.5는 프롬프트에 대한 감정 조정 반응이 제한적입니다.
모델 성능 격차는 학습 데이터 구성과 파랄링구스 신호를 보존하는 음성 토크나이저의 사용과 관련이 있습니다.
StyleBench는 음성 토크나이저 설계(예: GLM-4-Voice 토크나이저)가 음향적 변이 보존에 미치는 영향에 대한 통찰을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.