QUICK REVIEW

[論文レビュー] Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion

Joan Serrà, Santiago Pascual|arXiv (Cornell University)|Jun 3, 2019

Speech Recognition and Synthesis参考文献 50被引用数 35

ひとこと要約

Blowは、ハイパーネットワーク条件付けを伴うシングルスケール正規化フローで、生の音声上で多-to-多の非平行音声変換を実行し、競争力のある客観的・主観的結果を達成します。前方-後方変換、共有埋め込み、データ拡張を用いて性能を向上させます。

ABSTRACT

End-to-end models for raw audio generation are a challenge, specially if they have to work with non-parallel data, which is a desirable setup in many situations. Voice conversion, in which a model has to impersonate a speaker in a recording, is one of those situations. In this paper, we propose Blow, a single-scale normalizing flow using hypernetwork conditioning to perform many-to-many voice conversion between raw audio. Blow is trained end-to-end, with non-parallel data, on a frame-by-frame basis using a single speaker identifier. We show that Blow compares favorably to existing flow-based architectures and other competitive baselines, obtaining equal or better performance in both objective and subjective evaluations. We further assess the impact of its main components with an ablation study, and quantify a number of properties such as the necessary amount of training data or the preference for source or target speakers.

研究の動機と目的

生の音声に対する非平行・多対多の音声変換に対応する。
話者識別のためのハイパー条件付けを用いたシングルスケールフローアーキテクチャを開発する。
Blaze を flow-based ベースラインおよび非-flow 音声変換システムと比較して評価する。
アーキテクチャとデータ拡張コンポーネントの影響を定量化するためのアブレーション研究を実施する。

提案手法

8ブロック、ブロックあたり12フロー（8x12）を持つ Glow に触発されたシングルスケールフローを用いる。
ソース x(S) がソース条件下で潜在変数 z に写像され、z がターゲット条件下で x(T) に写像される前方-後方変換を用いる。
共有話者埋め込みからのハイパーネットワークで生成された重みを結合ネットワークの最初の層に条件付けることでハイパー条件付けを実装する。
条件付けを制約するため、すべての結合ネットワークとすべてのステップで単一の話者埋め込みを共有する。
生の音声フレームに時間揺らぎ、プリ/ディエンファシス、振幅スケーリング、符号反転を加える。
潜在 z に等方ガウス事前分布を置き、正確な対数尤度を最大化するように学習する。

実験結果

リサーチクエスチョン

RQ1単一スケールのハイパー条件付きフローは、生の音声に対して競争力のある非平行・多対多の音声変換を実現できるか？
RQ2前方-後方変換と共有埋め込みが変換品質と尤度に与える影響は？
RQ3データ拡張戦略は性能と頑健性にどう影響するか？
RQ4各アーキテクチャ要素（ハイパー条件付け、共有埋め込み、単一スケール構造）が客観・主観指標に与える相対的重要性は？

主な発見

アプローチ	L [nat/dim]	なりすまし率 [%]	自然さ [1–5]	類似性 [%]
ソースをターゲットとして	n/a	1.1	4.83	10.6
ターゲットをターゲットとして	n/a	99.3	4.83	98.5
Glow	4.11	1.2	n/a	n/a
Glow-WaveNet	4.18	3.1	n/a	n/a
StarGAN	n/a	44.4	2.87	61.8
VQ-VAE	n/a	65.0	2.42	69.7
Blow	4.45	89.3	2.83	77.6

Blow は客観評価で Glow および Glow-WaveNet より高い尤度 (L) を達成する。
Blow は VQ-VAE より高い spoofing 精度を達成し、話者アイデンティティの転送耐性が高いことを示す。
主観的結果は Blow が StarGAN と同程度の自然さを示し、ターゲットへの類似性は StarGAN または VQ-VAE より高いことを示している。
アブレーション研究は、単一スケール構造を性能にとって最も重要なコンポーネントであることを示す。
データ拡張は客観指標と spoofing 指標の双方を著しく改善する。
変換性能はターゲット話者識別に強く依存し、ソース識別の影響は小さい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。