Skip to main content
QUICK REVIEW

[論文レビュー] TVTSyn: Content-Synchronous Time-Varying Timbre for Streaming Voice Conversion and Anonymization

Waris Quamer, Mu-Ruei Tseng|arXiv (Cornell University)|Feb 10, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

TVTSynはストリーミング音声変換と匿名化のためのコンテンツ同期型の時変ティンバー表現を導入し、ダイナミックコンテンツを時変ティンバーと整列させることでサブ80 ms遅延の下でプライバシーとユーティリティのバランスを改善する。

ABSTRACT

Real-time voice conversion and speaker anonymization require causal, low-latency synthesis without sacrificing intelligibility or naturalness. Current systems have a core representational mismatch: content is time-varying, while speaker identity is injected as a static global embedding. We introduce a streamable speech synthesizer that aligns the temporal granularity of identity and content via a content-synchronous, time-varying timbre (TVT) representation. A Global Timbre Memory expands a global timbre instance into multiple compact facets; frame-level content attends to this memory, a gate regulates variation, and spherical interpolation preserves identity geometry while enabling smooth local changes. In addition, a factorized vector-quantized bottleneck regularizes content to reduce residual speaker leakage. The resulting system is streamable end-to-end, with <80 ms GPU latency. Experiments show improvements in naturalness, speaker transfer, and anonymization compared to SOTA streaming baselines, establishing TVT as a scalable approach for privacy-preserving and expressive speech synthesis under strict latency budgets.

研究の動機と目的

  • ストリーミングVC/SAにおける静的と動的の不一致を、時変ティンバー表現を導入して動的に合わせる。
  • Global Timbre Memoryを用いてフレーム同期ティンバーを生成する完全ストリーミング・低遅延のアーキテクチャを開発する。
  • 残留話者漏出を抑制しつつ、言語情報を保持するためにコンテンツを正則化する。
  • 厳格な遅延予算下でVoicePrivacy Challengeプロトコルにおけるプライバシーとユーティリティの性能を示す。

提案手法

  • Global Timbre Memory (GTM)を導入し、グローバルなティンバー種をK個のティンバー要素に拡張し、話者ごとのモジュレーションを行う。
  • コンテンツ c_t をGT Mへアテンションし、ゲート機構と球面内插(Slerp)を介して識別幾何を保持しつつ、時間的に変化するフレームレベルのティンバー s_tを計算する。
  • 因子分解されたベクトル量子化ボトルネックを用いてコンテンツを圧縮・離散化し、言語的ディテールを保持しつつ話者漏出を低減する。
  • 完全因果型のストリーミングコンテンツエンコーダ、TVT対応の話者処理、ピッチ/エネルギー予測器、リングKVキャッシュを備えた因果的波形デコーダを実装してストリーミングを効率化する。
  • 自己教師付きHuBERTベースのターゲットを離散ボトルネックで訓練するコンテンツエンコーダ、デコーダをメル再構成、対立的損失、特徴量整合、F0/エネルギー監視を含む多目的損失で訓練する。
Figure 1: (a) The content encoder in TVTSyn is trained separately with supervision from an off-line HuBERT model. (b) The waveform decoder is trained in a self-supervised fashion to reconstruct the input utterance from content and speaker embedding streams. Dashed lines are disabled at inference.
Figure 1: (a) The content encoder in TVTSyn is trained separately with supervision from an off-line HuBERT model. (b) The waveform decoder is trained in a self-supervised fashion to reconstruct the input utterance from content and speaker embedding streams. Dashed lines are disabled at inference.

実験結果

リサーチクエスチョン

  • RQ1ストリーミングVC/SAにおいてフレームレベルのコンテンツと話者同一性の条件付けをどのように整合させ、自然さと匿名化を改善できるか。
  • RQ2時変ティンバー表現とグローバルティンバーメモリを組み合わせて、リアルタイム制約下でプライバシーを維存しつつ正確な話者転送を実現できるか。
  • RQ3因子分解されたVQボトルネックは、言語的忠実度を損なわずに残留ID手掛かりを低減するようにコンテンツを適切に正則化できるか。
  • RQ4TVT設計の選択(ゲーティング、Slerp内插、GTM容量)が、ストリーミングVC/SAにおけるプライバシー(EER)とユーティリティ(WER, MOS)に与える影響はどうなるか。
  • RQ5TVTSynはVPC-2024プロトコル下で、レイテンシ制約が厳しい中、最先端のストリーミングベースラインと比較して遜色ないプライバシー-ユーティリティのバランスを達成できるか。

主な発見

  • TVTSynはEERが47.6% (lazy-informed) と14.6% (semi-informed) の強力な匿名化を達成し、同時に高い識別可能性を保つ(WER 5.35%)。
  • TVTSynは音声品質のMOSスコアで競争力が高い、または優れており、ベースラインと比べて話者検証性が高い印象を与える。
  • アブレーション研究によりGTMと事前情報が自然さに不可欠であり、GTMまたは事前情報を除去するとNISQA MOSが低下する。
  • TVTSynはGPUで約79 ms、CPUで約132 msのリアルタイムストリーミング遅延を達成し、R TFはそれぞれ0.31と1.20、60/100 msのチャンク設定下で実現。
  • オフラインVPCシステムと比較して、TVTSynは固定セットの疑似話者を用いた場合でも厳しい遅延制約下で有利なプライバシー-ユーティリティバランスを達成する。
  • 時変ティンバーの可視化は、音素/韻律転換と整合した意味あるフレーム依存のティンバー要素切替を示す。
Figure 2: Architecture details for (a) TVT processing block, (b) waveform decoder.
Figure 2: Architecture details for (a) TVT processing block, (b) waveform decoder.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。