QUICK REVIEW

[論文レビュー] Improving Zero-shot Voice Style Transfer via Disentangled Representation Learning

Siyang Yuan, Pengyu Cheng|arXiv (Cornell University)|Mar 17, 2021

Speech Recognition and Synthesis参考文献 53被引用数 27

ひとこと要約

IDE-VCは情報理論に基づく解離表現を提案し、VCTK上でゼロショットおよび多-to-多の声質スタイル転送を改善し、ベースラインを上回る。

ABSTRACT

Voice style transfer, also called voice conversion, seeks to modify one speaker's voice to generate speech as if it came from another (target) speaker. Previous works have made progress on voice conversion with parallel training data and pre-known speakers. However, zero-shot voice style transfer, which learns from non-parallel data and generates voices for previously unseen speakers, remains a challenging problem. We propose a novel zero-shot voice transfer method via disentangled representation learning. The proposed method first encodes speaker-related style and voice content of each input voice into separated low-dimensional embedding spaces, and then transfers to a new voice by combining the source content embedding and target style embedding through a decoder. With information-theoretic guidance, the style and content embedding spaces are representative and (ideally) independent of each other. On real-world VCTK datasets, our method outperforms other baselines and obtains state-of-the-art results in terms of transfer accuracy and voice naturalness for voice style transfer experiments under both many-to-many and zero-shot setups.

研究の動機と目的

非並列データおよび多-to-多のシナリオからゼロショットの声質転送を動機付ける。
埋め込みにおけるスタイルと内容を分離する解離表現学習フレームワークを提案する。
スタイルと内容の独立性を促す相互情報量の境界を組み込み、独立性を促進する。
獲得したスタイル表現の安定化のため、話者アイデンティティを監視 supervise として活用する。
従来のエンコーダ-デコーダ型VSTモデルより転送品質と自然さを向上させる。

提案手法

入力音声 x をスタイル埋め込み s = E_s(x) と内容埋め込み c = E_c(x) に符号化する。
D(s, c) を介して転送先のスタイルと組み合わせたソース内容を再構成または転送する。
I(s; c)、I(x; c|s)、および I(u; s) の上限/下限を用いて s と c を解離させる相互情報量ベースの目的関数を最小化する。
スタイルの一貫性と内容の保持を強化する新たな二つの多群MI境界（定理3.1および定理3.2）を提供する。
未知の条件付き p(s|c) をニューラル q_theta(s|c) で近似し、I(s; c) を束縛する。E_s、E_c、D、および q_theta を反復的に訓練する。
事前訓練済みの GE2E ベースのスタイルエンコーダ初期化と WaveNet ボコーダを音波合成に利用する。

実験結果

リサーチクエスチョン

RQ1非並列データ下で解離したスタイルと内容表現を用いたゼロショットの声質スタイル転送は信頼性をもって実現可能か。
RQ2MIベースの解離境界は転送忠実度と自然さを、従来のエンコーダ-デコーダ手法と比較して改善するか。
RQ3IDE-VCはVCTK上の多-to-多およびゼロショットVST設定でベースラインと比較してどう機能するか。
RQ4学習されたスタイル埋め込みは話者アイデンティティと一致し、内容埋め込みは話者不変のままであるか。
RQ5提案されたMI境界はエンドツーエンドモデルの訓練時に実現可能で有益か。

主な発見

Distance	Verification[%]	Naturalness[1–5]	Similarity[%]
Many-to-many: StarGAN	6.73	71.1	2.77	51.5
Many-to-many: AdaIN-VC	6.98	85.5	2.19	50.8
Many-to-many: AUTOVC	6.73	89.9	3.25	55.0
Many-to-many: Blow	8.08	-	2.11	10.8
Many-to-many: IDE-VC (Ours)	6.70	92.2	3.26	68.5
Zero-shot: AdaIN-VC	6.37	76.7	2.67	68.4
Zero-shot: AUTOVC	6.68	60.0	2.19	58.6
Zero-shot: IDE-VC (Ours)	6.31	81.1	3.33	76.4

IDE-VCは多-to-多VSTでベースライン（StarGAN、Blow、AUTOVC、AdaIN-VC）よりも、客観指標と主観指標の両方で優れている。
ゼロショットVSTではIDE-VCがAUTOVCおよびAdaIN-VCを全評価指標で上回る。
スタイル埋め込みは話者ごとにクラスタ化され、内容埋め込みは話者不変である（t-SNE可視化）。
内容埋め込みは話者アイデンティティ予測性がベースラインより低く、解離の向上を示す。
アブレーション研究でMIベース項を除くと転送品質が低下し、解離損失の重要性を裏づける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。