QUICK REVIEW

[論文レビュー] S$^2$Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion

Ziqian Wang, Xianjun Xia|arXiv (Cornell University)|Jan 20, 2026

Music and Audio Processing被引用数 0

ひとこと要約

S$^2$Voice は自動回帰型 LLM へスタイル条件付けを組み込み、フロー型デコーダーでグローバル話者条件付けを追加することで歌唱スタイル変換を進化させ、巨大なキュレーション済みコーパスと SFT+DPO 学習を導入して、イン-domain および zero-shot タスクで SVCC 2025 のトップ結果を達成します。

ABSTRACT

We present S$^2$Voice, the winning system of the Singing Voice Conversion Challenge (SVCC) 2025 for both the in-domain and zero-shot singing style conversion tracks. Built on the strong two-stage Vevo baseline, S$^2$Voice advances style control and robustness through several contributions. First, we integrate style embeddings into the autoregressive large language model (AR LLM) via a FiLM-style layer-norm conditioning and a style-aware cross-attention for enhanced fine-grained style modeling. Second, we introduce a global speaker embedding into the flow-matching transformer to improve timbre similarity. Third, we curate a large, high-quality singing corpus via an automated pipeline for web harvesting, vocal separation, and transcript refinement. Finally, we employ a multi-stage training strategy combining supervised fine-tuning (SFT) and direct preference optimization (DPO). Subjective listening tests confirm our system's superior performance: leading in style similarity and singer similarity for Task 1, and across naturalness, style similarity, and singer similarity for Task 2. Ablation studies demonstrate the effectiveness of our contributions in enhancing style fidelity, timbre preservation, and generalization. Audio samples are available~\footnote{https://honee-w.github.io/SVC-Challenge-Demo/}.

研究の動機と目的

スタイルと音色の分離を改善し、未知の歌手への一般化を高めることで堅牢な歌唱スタイル変換（SSC）を動機づける。
自動回帰のコンテンツ–スタイルモデルに明示的なスタイル条件付けを導入して、細粒度のスタイルモデリングを改善する。
acoust ic デコーダーにおけるグローバル話者埋め込みで音色の保持を強化する。
高品質な歌唱コーパスを大規模に組成し、多段階の学習戦略を採用して安定性と零ショット性能を向上させる。

提案手法

Vevo を基盤とした自動回帰のコンテンツ–スタイルモデルに続く、フロー整合性付きデコーダーを備えた二段階フレームワークを導入する。
FiLM 系層正規化とスタイル認識型クロスアテンションを組み込み、グローバルおよび局所のスタイル情報をAR LLMへ注入する。
事前学習済み話者検証ネットワークからのグローバル話者埋め込みを用いて音響デコーダーを条件付けし、音色の保持を改善する。
ウェブ収集、ボーカル分離、転写 refinements、品質フィルタリングを通じて ~500 時間程度の大規模な歌唱コーパスをキュレーションする。
SFT（ supervised tuning ）に続く DPO（直接好み最適化）で知覚品質と安定性を向上させる。

Fig. 1 : Autoregressive transformer block. (a) Original AR block with standard self-attention and feed-forward layers using conventional LayerNorm. (b) Modified AR block used in our AR-LLM: FiLM-style layer-norm modulation injects global style scale and shift ( $\gamma,\beta$ ) produced by the style

実験結果

リサーチクエスチョン

RQ1スタイル埋め込みを自動回帰 LLM に効果的に注入して、細粒度の歌唱スタイル制御を実現できるか。
RQ2音響デコーダーのグローバル話者埋め込みは零ショット SSC における音色の類似性を改善するか。
RQ3大規模なキュレーション歌唱コーパスと多段階学習（SFT+DPO）が SSC の自然さとスタイル/歌手類似性に及ぼす影響は何か。
RQ4FiLM、スタイル認識型クロスアテンション、グローバル話者埋め込み、DPO といった各要素の欠落がスタイル忠実度、音色保持、生成安定性にどう影響するか。

主な発見

System	Task	Naturalness (MOS)	Style Sim. (%)	Singer Sim. (%)
GT	1	3.90 ± 0.15	79 ± 3	63 ± 4
Vevo	1	3.10 ± 0.12	30 ± 5	42 ± 5
S2 Voice	1	3.30 ± 0.10	59 ± 4	57 ± 4
GT	2	4.10 ± 0.15	78 ± 3	60 ± 4
Vevo	2	3.20 ± 0.12	32 ± 5	52 ± 5
S2 Voice	2	3.75 ± 0.11	70 ± 3	59 ± 4

S2 Voice は自然さ、スタイル類似性、歌手類似性のすべての SVCC 2025 トラックで一位にランク付けされた。
スタイル類似性の獲得は、AR LLM における FiLM とスタイル認識型クロスアテンションによるところが大きい。
グローバル話者埋め込みは音響モデルにおける歌手（音色）類似性を改善する。
約500時間のキュレーション歌唱コーパスと SFT+DPO は安定性と零ショット一般化を改善する。
アブレーション実験では、各コンポーネントがスタイル忠実度、音色保持、生成安定性にポジティブに寄与することが示され、DPO は低品質の例外を減らす一方で指標の小さな変化を超えず。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。