[논문 리뷰] S$^2$Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion
S$^2$Voice는 스타일 조건화를 자기회귀 LLM에 통합하고 흐름 기반 디코더에 글로벌 스피커 컨디셔닝을 추가함으로써 노래 스타일 변환(SSC)을 강화하고, 크고 큐레이션된 말뭉치 및 SFT+DPO 학습을 통해 도메인 내 및 제로샷 작업에서 SVCC 2025의 최상위 성과를 달성했다.
We present S$^2$Voice, the winning system of the Singing Voice Conversion Challenge (SVCC) 2025 for both the in-domain and zero-shot singing style conversion tracks. Built on the strong two-stage Vevo baseline, S$^2$Voice advances style control and robustness through several contributions. First, we integrate style embeddings into the autoregressive large language model (AR LLM) via a FiLM-style layer-norm conditioning and a style-aware cross-attention for enhanced fine-grained style modeling. Second, we introduce a global speaker embedding into the flow-matching transformer to improve timbre similarity. Third, we curate a large, high-quality singing corpus via an automated pipeline for web harvesting, vocal separation, and transcript refinement. Finally, we employ a multi-stage training strategy combining supervised fine-tuning (SFT) and direct preference optimization (DPO). Subjective listening tests confirm our system's superior performance: leading in style similarity and singer similarity for Task 1, and across naturalness, style similarity, and singer similarity for Task 2. Ablation studies demonstrate the effectiveness of our contributions in enhancing style fidelity, timbre preservation, and generalization. Audio samples are available~\footnote{https://honee-w.github.io/SVC-Challenge-Demo/}.
연구 동기 및 목표
- 스타일과 음색의 해리(떼어내기)를 개선하고 보지 못한 가수에 대한 일반화를 향상시켜 robust한 노래 스타일 변환(SSC)을 모티브화한다.
- 자 autoregressive 콘텐츠–스타일 모델에서 명시적 스타일 조건화를 통해 세밀한 스타일 모델링을 개선한다.
- 음향 디코더에서 글로벌 스피커 임베딩을 활용해 음색 보존을 강화한다.
- 대규모 고품질 노래 말뭉치를 모으고 멀티 스테이지 학습 전략을 채택하여 안정성과 제로샷 성능을 높인다.
제안 방법
- Vevo를 기반으로 한 자기회귀 콘텐츠–스타일 모델 뒤에 흐름 매칭 음향 디코더를 두 단계로 구성하는 프레임워크를 도입한다.
- FiLM 스타일 레이어 노멀라이제이션 및 스타일 인식 크로스 어텐션을 도입해 AR LLM에 글로벌/로컬 스타일 정보를 주입한다.
- 사전 학습된 화자 인증 네트워크로부터의 글로벌 스피커 임베딩으로 음향 디코더를 조건화해 음색 보존을 촉진한다.
- 웹 수집, 보컬 분리, 트랜스크립트 정제 및 품질 필터링을 통해 ~500시간의 대규모 노래 말뭉치를 큐레이션한다.
- 지시적 미세조정(SFT) 후 직접 선호 최적화(DPO)를 통해 인지적 품질과 안정성을 향상시킨다.

실험 결과
연구 질문
- RQ1스타일 임베딩을 자동회귀 LLM에 효과적으로 주입해 세밀한 노래 스타일 제어를 달성할 수 있는가?
- RQ2음향 디코더에 글로벌 스피커 임베딩이 제로샷 SSC의 음색 유사성을 개선하는가?
- RQ3대규모 큐레이션 노래 말뭉치와 멀티스테이지 학습(SFT+DPO)이 SSC의 자연스러움 및 스타일/가수 유사성에 미치는 영향은 무엇인가?
- RQ4아블레이션 구성요소(FiLM, 스타일 인식 크로스 어텐션, 글로벌 스피커 임베딩, DPO)가 스타일 충실도와 생성 안정성에 어떻게 기여하는가?
주요 결과
| 시스템 | 작업 | 자연스러움 (MOS) | 스타일 유사도 (%) | 가수 유사도 (%) |
|---|---|---|---|---|
| GT | 1 | 3.90 ± 0.15 | 79 ± 3 | 63 ± 4 |
| Vevo | 1 | 3.10 ± 0.12 | 30 ± 5 | 42 ± 5 |
| S2 Voice | 1 | 3.30 ± 0.10 | 59 ± 4 | 57 ± 4 |
| GT | 2 | 4.10 ± 0.15 | 78 ± 3 | 60 ± 4 |
| Vevo | 2 | 3.20 ± 0.12 | 32 ± 5 | 52 ± 5 |
| S2 Voice | 2 | 3.75 ± 0.11 | 70 ± 3 | 59 ± 4 |
- S2 Voice는 자연스러움, 스타일 유사성, 가수 유사성 모든 SVCC 2025 트랙에서 1위를 차지했다.
- 스타일 유사성 증가폭은 AR LLM의 FiLM 및 스타일 인식 크로스 어텐션 덕분에 가장 크게 나타난다.
- 글로벌 스피커 임베딩은 음향 모델에서 가수(음색) 유사성을 향상시킨다.
- 약 500시간 규모의 큐레이션된 노래 말뭉치와 SFT+DPO가 안정성과 제로샷 일반화를 향상시킨다.
- 아블레이션 결과, 각 구성요소가 스타일 충실도, 음색 보존, 생성 안정성에 긍정적으로 기여하며, DPO는 일부 메트릭 변화에도 불구하고 저품질 이상치를 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.