[论文解读] Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling
Tutti 是一个在单一歌曲中实现结构化多歌手生成的统一框架,使用结构感知的歌手提示与纹理建模实现动态歌手调度和合唱段落的真实声纹。
While existing Singing Voice Synthesis systems achieve high-fidelity solo performances, they are constrained by global timbre control, failing to address dynamic multi-singer arrangement and vocal texture within a single song. To address this, we propose Tutti, a unified framework designed for structured multi-singer generation. Specifically, we introduce a Structure-Aware Singer Prompt to enable flexible singer scheduling evolving with musical structure, and propose Complementary Texture Learning via Condition-Guided VAE to capture implicit acoustic textures (e.g., spatial reverberation and spectral fusion) that are complementary to explicit controls. Experiments demonstrate that Tutti excels in precise multi-singer scheduling and significantly enhances the acoustic realism of choral generation, offering a novel paradigm for complex multi-singer arrangement. Audio samples are available at https://annoauth123-ctrl.github.io/Tutii_Demo/.
研究动机与目标
- 通过在单曲中实现动态多歌手安排,超越独唱范式的局限。
- 开发一个结构感知的提示系统,依据乐句结构(verse/chorus)对歌手进行调度。
- 通过纹理学习模块捕捉隐含的声乐纹理(空间混响、频谱融合),这是显式控制无法覆盖的。
提出的方法
- 使用基于 DiT 的潜在扩散骨干与 Vocal VAE 生成多歌手波形。
- 引入结构感知歌手提示及自适应歌手提示融合器,按乐段灵活组合多歌手嵌入。
- 通过条件引导的 VAE 从参考音频中提取互补纹理特征,以建模隐含声乐纹理。
- 以条件流动匹配目标函数训练,在多条件下学习去噪速度场。
- 通过在潜在帧率上串联连续与离散条件实现融合。
- 利用结构引导的 SongPrep 与基于 CAM++ 的歌手嵌入聚类来确定歌手调度。
实验结果
研究问题
- RQ1如何在单曲中以乐句结构为指导进行多歌手调度控制?
- RQ2显式控制(歌词、结构、歌手身份)是否可通过隐含声乐纹理得到增强从而提高真实感?
- RQ3自适应多歌手融合对合唱合成的音色辨识度和歌词清晰度有何影响?
- RQ4纹理引导的 VAE 相比仅依赖显式条件对声学真实感有何贡献?
主要发现
| Model | WER ↓ | SIM ↑ | MOS-Q ↑ | MOS-N ↑ | MS-MOS ↑ | Mel-MOS ↑ |
|---|---|---|---|---|---|---|
| GT (Ground Truth) | 12.45% | - | 4.50 ± 0.05 | 4.65 ± 0.05 | 4.30 ± 0.05 | 4.16 ± 0.05 |
| Vevo2 | 16.80% | 0.657 | 3.85 ± 0.12 | 4.01 ± 0.12 | - | - |
| Tutti (Ours) | 13.50% | 0.691 | 4.12 ± 0.06 | 4.12 ± 0.06 | 4.02 ± 0.10 | 3.89 ± 0.05 |
| w/o Texture | 13.85% | 0.705 | 3.99 ± 0.08 | 3.97 ± 0.07 | 3.87 ± 0.06 | 3.57 ± 0.12 |
| w/o Fuser | 17.25% | 0.649 | 4.02 ± 0.07 | 4.10 ± 0.07 | 3.61 ± 0.12 | 3.87 ± 0.06 |
- Tutti 实现了带有精准结构感知调度的动态多歌手安排,在多歌手指标上超越基线。
- 声乐纹理学习提升了声学真实感,当包含纹理线索时在旋律表现和感知指标上获得显著提升。
- 自适应歌手提示融合器在保持歌手身份的同时实现连贯的主歌/和声互动,优于线性融合方法。
- 在客观指标上,Tutti 在多歌手场景下达到更高的 SIM、较低的 WER;主观 MOS 分数也高于 Vevo2。
- 消融研究显示去除纹理或去除自适应融合器会降低旋律、音色辨识度和歌词清晰度。
- 可视化结果显示出现清晰的独唱 vs. 合唱音高模式与更丰富的合唱光谱内容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。