QUICK REVIEW

[論文レビュー] Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder

Chin-Cheng Hsu, Hsin-Te Hwang|arXiv (Cornell University)|Oct 13, 2016

Speech Recognition and Synthesis参考文献 19被引用数 23

ひとこと要約

本論文は、平行でない、アライメントのとられていない音声コーパスを用いることで、フレーム単位のアライメントや並列学習データを必要としない、変分オートエンコーダー（VAE）ベースのスペクトル変換フレームワークを提案する。この手法はエンコーダーを介して発話者に依存しない発音的表現を学習し、デコーダーを介してターゲット発話者のスペクトルを再構築することで、客観的（MCD）および主観的（MOS）評価においてアライメント依存型ベースラインと同等の性能を達成する。

ABSTRACT

We propose a flexible framework for spectral conversion (SC) that facilitates training with unaligned corpora. Many SC frameworks require parallel corpora, phonetic alignments, or explicit frame-wise correspondence for learning conversion functions or for synthesizing a target spectrum with the aid of alignments. However, these requirements gravely limit the scope of practical applications of SC due to scarcity or even unavailability of parallel corpora. We propose an SC framework based on variational auto-encoder which enables us to exploit non-parallel corpora. The framework comprises an encoder that learns speaker-independent phonetic representations and a decoder that learns to reconstruct the designated speaker. It removes the requirement of parallel corpora or phonetic alignments to train a spectral conversion system. We report objective and subjective evaluations to validate our proposed method and compare it to SC methods that have access to aligned corpora.

研究の動機と目的

並列コーパスやフレーム単位のアライメントを必要としないスペクトル変換フレームワークの開発。
ソースおよびターゲット発話者からのアライメントのとられていない音声データのみを用いたボイスコンバージョンの実現。
VAEベースのオートエンコーダー設定において、発話者IDから分離された発話者に依存しない発音的表現を効果的に分離できるかの調査。
客観的および主観的指標を用いて、本手法のアライメント依存型ベースラインとの性能比較の妥当性の検証。
多数対多数ボイスコンバージョンへのフレームワークの拡張可能性の検討。

提案手法

フレームワークは、スペクトルフレームを共有潜在空間にマップする共有エンコーダーを備えたVAEを採用し、発音的コンテンツと発話者IDを分離する。
デコーダーは発話者固有の潜在コードを用いてターゲット発話者のスペクトルを再構築し、制御されたスペクトル再構築を可能にする。
データの対数尤度の変分下界を最大化することで、非並列データ上でエンドツーエンドに学習される。
発話者IDはデコーダーへのワンホットベクトル入力としてモデル化され、共有発音的表現から発話者固有の出力を生成可能となる。
ペアワイズ（VAE-pair）およびマルチスケーラー（VAE-multi）の構成をサポートし、VAE-multiは12種類の発話者ペアを1つのモデルに統合する。
分離学習バリエーション（VAE-disj）は、ソースおよびターゲット発話者を別々に学習し、より厳しいデータ制約下での頑健性をテストする。

実験結果

リサーチクエスチョン

RQ1VAEベースのフレームワークは、並列またはアライメント済み学習データを必要とせずに、競争力のあるスペクトル変換性能を達成できるか？
RQ2非アライメントコーパスから、どれほど効果的に分離された発話者に依存しない発音的表現を学習できるか？
RQ3本手法の性能は、客観的および主観的指標において、アライメント依存型ベースラインと比べてどの程度か？
RQ4本フレームワークは、未知の発話者ペアを含む多数対多数ボイスコンバージョンをサポートできるか？
RQ5非並列データで学習されたモデルは、非並列データで学習された場合でも、高いボイス品質と類似性を維持できるか？

主な発見

VAE-pairモデルは評価セットで平均MCD 3.58を達成し、アライメント済みデータを用いたベースラインENMF-3000と同等の性能を示した。
ボイス品質の主観的MOSは、VAE-pairで2.76（SD 0.44）、ENMF-3000で2.75（SD 0.50）であり、品質の顕著な低下は認められなかった。
VAE-disjモデルは、VAE-pairの半分の学習サイズで非並列データで学習されたが、VAE-pairとほぼ同等の性能を示し、データ制約下での頑健性を示した。
VAE-multiモデルは、12種類の発話者ペアを1つのモデルに統合しながらVAE-pairと同等に近いMCD性能を達成し、多数対多数変換への可能性を示した。
ABXテストでは、VAE-pairとENMF-3000の間でターゲット類似性に有意差がなく、同等の発話者ID移行が確認された。
結果から、明示的なフレーム単位のアライメントは、高品質なスペクトル変換に不要であることが示された。VAEフレームワークは、分離された表現学習を通じて必要なマッピングを暗黙的に学習している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。