QUICK REVIEW

[論文レビュー] AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

Kaizhi Qian, Yang Zhang|arXiv (Cornell University)|May 14, 2019

Speech Recognition and Synthesis参考文献 32被引用数 195

ひとこと要約

AutoVC は自己再構成のみで訓練されたボトルネック型オートエンコーダを用いてゼロショットの声のスタイル転送を実現し、非並列の多対多の声変換を可能にする。

ABSTRACT

Non-parallel many-to-many voice conversion, as well as zero-shot voice conversion, remain under-explored areas. Deep style transfer algorithms, such as generative adversarial networks (GAN) and conditional variational autoencoder (CVAE), are being applied as new solutions in this field. However, GAN training is sophisticated and difficult, and there is no strong evidence that its generated speech is of good perceptual quality. On the other hand, CVAE training is simple but does not come with the distribution-matching property of a GAN. In this paper, we propose a new style transfer scheme that involves only an autoencoder with a carefully designed bottleneck. We formally show that this scheme can achieve distribution-matching style transfer by training only on a self-reconstruction loss. Based on this scheme, we proposed AUTOVC, which achieves state-of-the-art results in many-to-many voice conversion with non-parallel data, and which is the first to perform zero-shot voice conversion.

研究の動機と目的

並列データなしの非並列・多対多の声の変換を動機づける。
ターゲット分布に一致する簡易なオートエンコーダベースのスタイル転送を開発する。
事前学習済みの話者埋め込みを用いて見たことのない話者へのゼロショット変換を可能にする。
慎重に設計されたボトルネックを通じて内容と話者情報を分離する。
オートエンコーダが分布一致を達成することの理論的正当性を提供する。

提案手法

コンテンツエンコーダ、話者エンコーダ、デコーダの3モジュールからなるフレームワークを提案する。
自己再構成損失と内容の整合性損失で訓練し、分離性を強制する。
内容と話者情報を分離するため、時系列ダウンサンプリングとチャネル削減による慎重に設計されたボトルネックを使用する。
GE2E損失で話者エンコーダを事前訓練し、ゼロショット変換の unseen 話者埋め込みを可能にする。
スペクトログラムベースのオートエンコーダとポストネットを用いてスペクトログラムの詳細を精細化する形でデコードする。
変換後のスペクトログラムから最終波形を合成するために WaveNet ボーカライザーを組み込む。

実験結果

リサーチクエスチョン

RQ1自己再構成のみで訓練されたオートエンコーダは、声変換の分布一致スタイル転送を達成できるか。
RQ2ボトルネックを調整して内容から話者情報を分離し、ゼロショット変換を可能にできるか。
RQ3提案手法 AutoVC は、見知らぬ話者を含む非並列・多対多の声変換で良い性能を発揮するか。
RQ4並列データなしでゼロショット変換を支えるには、事前訓練済みの話者埋め込みのみで十分か。

主な発見

Model	Recon. Error	Class. Acc.
Narrow	34.6	7.50%
AutoVC	8.59	12.0%
Wide	3.85	70.5%

見知った話者を用いた従来の非並列多対多声変換で AutoVC は最先端の性能を達成する。
AutoVC は未見の話者を用いたゼロショット声変換を実用的な性能で可能にする。
AutoVC の主観MOSスコアはベースラインの非並列手法を上回り、並列/変換品質に近い。
適切に調整されたボトルネックは再構成品質と話者分離のバランスを取り、効果的な変換を可能にする。
AutoVC-one-hot 実験は、話者埋め込みが利益に寄与する程度がボトルネック設計より少ないことを示す。
Table 1 は、狭い/ AutoVC / 広いボトルネック間で再構成品質と分離のトレードオフを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。