QUICK REVIEW

[論文レビュー] StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks

Hirokazu Kameoka, Takuhiro Kaneko|arXiv (Cornell University)|Jun 6, 2018

Speech Recognition and Synthesis参考文献 37被引用数 48

ひとこと要約

StarGAN-VC は、ターゲット属性で条件付けられた単一のジェネレータを用いて、非並列の多対多音声変換を実現し、数分の学習データでリアルタイム性能を達成し、主観テストにおいて VAE-GAN のベースラインを上回る。

ABSTRACT

This paper proposes a method that allows non-parallel many-to-many voice conversion (VC) by using a variant of a generative adversarial network (GAN) called StarGAN. Our method, which we call StarGAN-VC, is noteworthy in that it (1) requires no parallel utterances, transcriptions, or time alignment procedures for speech generator training, (2) simultaneously learns many-to-many mappings across different attribute domains using a single generator network, (3) is able to generate converted speech signals quickly enough to allow real-time implementations and (4) requires only several minutes of training examples to generate reasonably realistic-sounding speech. Subjective evaluation experiments on a non-parallel many-to-many speaker identity conversion task revealed that the proposed method obtained higher sound quality and speaker similarity than a state-of-the-art method based on variational autoencoding GANs.

研究の動機と目的

並列発話やアラインメントなしで、複数のターゲット属性に跨る非並列音声変換を実現する（many-to-many）。
すべての属性ドメイン間の写像を効率的にモデル化する単一のジェネレーターネットワークを使用する。
実用展開に適したリアルタイムまたはほぼリアルタイムの音声変換を実現する。
VAE-GAN ベースラインよりも主観的な音声品質と話者類似性が改善されることを実証する。

提案手法

ターゲット属性 cで条件付けられた単一のエンコーダ–デコーダー生成器 G を用いて、複数のドメイン写像を学習するために StarGAN を採用する。
変換後の音声が現実的で、ターゲット属性に属することを保証するために、real/fake 判別器 D とドメイン分類器 C を訓練する。
敵対的損失 L_adv、ドメイン分類損失 L_cls、サイクル整合性損失 L_cyc、アイデンティティ損失 L_id を用いて写像を正規化する（Equations 9–17）。
属性を連結された one-hot ベクトルとして表現し、エンコーダ–デコーダ構造の中で GLU（gated linear unit）を用いた全畳み込みCNNとして G をモデル化する。
メルケプストラム係数のような音響特徴列に作用する PatchGAN 風の識別器 D およびドメイン分類器 C を用いて、セグメントごとの real/fake とクラス確率を出力する。
WORLD を介して mel-cepstral 特徴を用いてシークエンスを変換し、スペクトルゲインに基づく時間領域再構築をボコーダーを通して行う（Section 3.2）。

実験結果

リサーチクエスチョン

RQ1StarGAN を用いた単一のジェネレータで、非並列の多対多音声変換を実現できるか？
RQ2StarGAN-VC は、複数の話者に跨る多様な属性転送を可能にしつつ、言語的内容を保持するか？
RQ3本手法はリアルタイム変換が可能で、訓練データは数分程度で済むか？
RQ4品質と類似性の観点で、CVAE-VC や CycleGAN-VC などの非並列 VC アプローチと比べて StarGAN-VC はどうか？

主な発見

主観的評価は StarGAN-VC が VAE-GAN ベースラインよりも音質が高いことを示している。
ABX テストで、StarGAN-VC がターゲット話者への話者類似性をベースラインと比較して改善している。
この手法は、複数の話者属性にわたる単一のジェネレーターを用いた非並列の多対多変換をサポートする。
本手法はリアルタイムに近い効率で動作し、訓練データは数分程度で済む。
VCC 2018 データセットで four target speakers を用いた実験は、知覚品質と類似性の有意な性能向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。