Skip to main content
QUICK REVIEW

[论文解读] TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

Waris Quamer, Mu-Ruei Tseng|arXiv (Cornell University)|Feb 10, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

TVTSyn 引入一个与内容同步的时变音色表示,用于流式语音转换和匿名化,将动态内容与时变音色对齐,在低于 80 ms 的延迟下实现更好的隐私-效用平衡。

ABSTRACT

Real-time voice conversion and speaker anonymization require causal, low-latency synthesis without sacrificing intelligibility or naturalness. Current systems have a core representational mismatch: content is time-varying, while speaker identity is injected as a static global embedding. We introduce a streamable speech synthesizer that aligns the temporal granularity of identity and content via a content-synchronous, time-varying timbre (TVT) representation. A Global Timbre Memory expands a global timbre instance into multiple compact facets; frame-level content attends to this memory, a gate regulates variation, and spherical interpolation preserves identity geometry while enabling smooth local changes. In addition, a factorized vector-quantized bottleneck regularizes content to reduce residual speaker leakage. The resulting system is streamable end-to-end, with <80 ms GPU latency. Experiments show improvements in naturalness, speaker transfer, and anonymization compared to SOTA streaming baselines, establishing TVT as a scalable approach for privacy-preserving and expressive speech synthesis under strict latency budgets.

研究动机与目标

  • 通过引入时变音色表示,解决流式 VC/SA 中静态与动态不匹配的问题。
  • 开发一个完全流式、低延迟的架构,使用全局音色记忆来生成帧级同步的音色。
  • 正则化内容以减少残留说话人泄漏,同时保留语言内容。
  • 在 VoicePrivacy Challenge 的严格延迟预算下,展示隐私与效用性能。

提出的方法

  • 引入一个 Global Timbre Memory (GTM),将全局音色种子扩展为 K 个音色Facet,并进行说话人调制。
  • 通过将内容 c_t 作为注意对象并经过门控机制与球形插值(Slerp)来在 GTM 上对齐,计算帧级时变音色 s_t 以保持身份几何。
  • 使用因式分解的向量量化瓶颈对内容进行压缩离散化,以降低说话人泄漏同时保留语言细节。
  • 实现一个完全因果的流式内容编码器、TVT 感知的说话人处理、音高/能量预测器,以及带环形 KV 缓存的因果波形解码器以实现高效流式。
  • 用自监督的 HuBERT 基目标训练内容编码器,采用离散瓶颈;用多目标损失训练解码器,包括梅尔重建、对抗损失、特征匹配,以及 F0/能量监督。
Figure 1: (a) The content encoder in TVTSyn is trained separately with supervision from an off-line HuBERT model. (b) The waveform decoder is trained in a self-supervised fashion to reconstruct the input utterance from content and speaker embedding streams. Dashed lines are disabled at inference.
Figure 1: (a) The content encoder in TVTSyn is trained separately with supervision from an off-line HuBERT model. (b) The waveform decoder is trained in a self-supervised fashion to reconstruct the input utterance from content and speaker embedding streams. Dashed lines are disabled at inference.

实验结果

研究问题

  • RQ1如何将说话人身份条件化与帧级内容对齐,以提升流式 VC/SA 的自然性与匿名性?
  • RQ2是否可以通过与全局音色记忆耦合的时变音色表示,在实时约束下实现准确的说话人迁移同时维持隐私?
  • RQ3因式分解的 VQ 瓶颈是否能有效正则化内容以减少残留身份线索而不牺牲语言保真度?
  • RQ4TVT 设计选择(门控、Slerp 插值、GTM 容量)对流式 VC/SA 的隐私(EER)与效用(WER、MOS)有何影响?
  • RQ5在 VPC-2024 协议下,与最先进的流式基线相比,TVTSyn 在延迟、质量、说话人迁移与匿名化方面的表现如何?

主要发现

  • TVTSyn 在隐匿性方面达到强隐私效果:EER 为 47.6%(较 Lazy-informed)和 14.6%(较 Semi-informed),同时保持高可懂度(WER 5.35%)。
  • TVTSyn 在语音质量上具竞争力或优于基线,且在更高感知说话人可验证性方面表现更好。
  • 消融研究表明 GTM 与先验信息对自然性至关重要;移除 GTM 或先验信息会降低 NISQA MOS。
  • TVTSyn 实现实时流式延迟:GPU 约 79 ms,CPU 约 132 ms,RTF 分别为 0.31 与 1.20,在 60/100 ms 的分组设置下。
  • 与离线 VPC 系统相比,在严格延迟约束下,TVTSyn 在隐私-效用平衡方面具有优势,且使用固定的一组伪说话人。
  • 时变音色可视化显示出与音位/音调转变对齐的有意义、逐帧的音色Facet 切换。
Figure 2: Architecture details for (a) TVT processing block, (b) waveform decoder.
Figure 2: Architecture details for (a) TVT processing block, (b) waveform decoder.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。