[论文解读] CosyEdit: Unlocking End-to-End Speech Editing Capability from Zero-Shot Text-to-Speech Models
CosyEdit 以零-shot TTS 模型为基础,通过任务特定微调和优化推理进行端到端语音编辑,在有限监督数据条件下实现有竞争力的结果。
Automatic speech editing aims to modify spoken content based on textual instructions, yet traditional cascade systems suffer from complex preprocessing pipelines and a reliance on explicit external temporal alignment. Addressing these limitations, we propose CosyEdit, an end-to-end speech editing model adapted from CosyVoice through task-specific fine-tuning and an optimized inference procedure, which internalizes speech-text alignment while ensuring high consistency between the speech before and after editing. By fine-tuning on only 250 hours of supervised data from our curated GigaEdit dataset, our 400M-parameter model achieves reliable speech editing performance. Experiments on the RealEdit benchmark indicate that CosyEdit not only outperforms several billion-parameter language model baselines but also matches the performance of state-of-the-art cascade approaches. These results demonstrate that, with task-specific fine-tuning and inference optimization, robust and efficient speech editing capabilities can be unlocked from a zero-shot TTS model, yielding a novel and cost-effective end-to-end solution for high-quality speech editing.
研究动机与目标
- 推动端到端的语音编辑以避免复杂的预处理和显式对齐。
- 提出一个后训练策略以在零-shot TTS 模型中解锁编辑能力。
- 从现有语料库创建一个有监督的语音编辑数据集(GigaEdit)。
- 在基于 CosyVoice 的架构上进行针对编辑任务的目标微调。
- 在使用 250 小时数据的前提下,在 RealEdit 上展示最先进或具有竞争力的性能。
提出的方法
- 将语音编辑重新表述为条件于目标文本和原始语音的自回归语音 token 生成。
- 保留 CosyVoice 文本编码器和 S3 语义分词器,并为编辑改用 AR-LM 和 NAR 流模型。
- 用参考引导的 GOT-CFM 对 OT-CFM 进行增强,以改善说话人音色和粒度细节(方程式 5–8)。
- 通过零-shot 的上下文内推理和一-shot 的上下文内推理训练,使模型内部化语音-文本对齐(训练时条件与推理时条件的差异)。
- 通过将 GigaSpeech 转化为跨插入、删除、替换以及多编辑变体的有监督编辑任务,构建 GigaEdit。
实验结果
研究问题
- RQ1如何在没有外部对齐模块的情况下,从零-shot TTS 模型实现端到端的语音编辑?
- RQ2哪些训练和推理策略最能在编辑过程中保留说话人音色和未编辑区域?
- RQ3一个小型、精选的有监督数据集(GigaEdit)是否能使拥有大规模零-shot TTS 主体的编辑性能具备竞争力?
- RQ4AR 与 NAR 组件如何协同工作,以在插入、删除和替换任务中实现稳健编辑?
主要发现
| Method | WER (%) ↓ | SpkSIM ↑ | MCD ↓ | MOSNet MAE ↓ | UTMOS MAE ↓ | EMOS ↑ | SMOS ↑ |
|---|---|---|---|---|---|---|---|
| GroundTruth | 6.06 | – | – | – | – | – | – |
| FluentSpeech | 5.97 | 0.9274 | – | 0.78 | 2.81 | 2.7 | 2.6 |
| VoiceCraft | 6.55 | 0.9712 | – | 0.24 | 3.31 | 4.04 | 4.08 |
| SSR-Speech | 5.05 | 0.9831 | – | 0.14 | 3.34 | 4.11 | 4.09 |
| Step-Audio-EditX | 10.76 | 0.9588 | – | 0.61 | 3.89 | 3.41 | 3.49 |
| MiMo-Audio | 16.86 | 0.9371 | – | 0.50 | 3.38 | 3.55 | 3.05 |
| Ming-UniAudio | 9.98 | 0.9670 | – | 0.33 | 3.18 | 3.79 | 3.84 |
| CosyEdit (ours) | 4.50 | 0.9734 | – | 0.29 | 3.30 | 4.15 | 4.04 |
- CosyEdit 在 RealEdit 上的 WER 和 EMOS 指标超过若干端到端基线。
- CosyEdit 在 RealEdit 上接近最先进级联系统的性能。
- CosyEdit 在端到端模型中实现了强劲的说话人相似性和 SMOS 分数。
- 一次性上下文推理显著降低了 WER,而对 MOS 的影响很小。
- 针对编辑任务的 LLM 与流训练提升了韵律和声学细节,在编辑准确性与质量之间取得平衡。
- CosyEdit 在提高 MCD 和其他保真度指标的同时,保持相对稳定的 MOS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。