QUICK REVIEW

[論文レビュー] Neural Voice Cloning with a Few Samples

Sercan Ö. Arık, Jitong Chen|arXiv (Cornell University)|Feb 14, 2018

Speech Recognition and Synthesis参考文献 43被引用数 175

ひとこと要約

この論文は、少数のサンプルから話者の声をクローンする2つの方法を提案します：話者適応（多声モデルの微調整）と話者エンコーディング（少量データから話者埋め込みを推定するエンコーダを訓練）。自然さと類似度を評価し、話者分類および検証による自動評価を導入するとともに、埋め込み操作による声のモーフィングを示します。

ABSTRACT

Voice cloning is a highly desired feature for personalized speech interfaces. Neural network based speech synthesis has been shown to generate high quality speech for a large number of speakers. In this paper, we introduce a neural voice cloning system that takes a few audio samples as input. We study two approaches: speaker adaptation and speaker encoding. Speaker adaptation is based on fine-tuning a multi-speaker generative model with a few cloning samples. Speaker encoding is based on training a separate model to directly infer a new speaker embedding from cloning audios and to be used with a multi-speaker generative model. In terms of naturalness of the speech and its similarity to original speaker, both approaches can achieve good performance, even with very few cloning audios. While speaker adaptation can achieve better naturalness and similarity, the cloning time or required memory for the speaker encoding approach is significantly less, making it favorable for low-resource deployment.

研究の動機と目的

unseen speakers using few samples を用いて、事前訓練済みの多声TTSモデルを効果的に適応させることの有効性を実証する。
生成器のファインチューニングなしに限られた音声データから話者埋め込みを推定する話者エンコーディングアプローチを提案する。
クローン品質の自動評価手法を、話者分類と話者検証に基づいて導入する。
埋め込み操作による声のモーフィング（性別・訛りの変換）を示す。
クローン品質、クローン時間、リソース要件のトレードオフを論じる。

提案手法

Wを共有重みとして、話者ごとの埋め込み e_s を持つ、Deep Voice 3 に基づく多声生成モデルを採用する。
2つのクローン戦略を検討する：（a）埋め込みのみまたは全モデルの微調整による話者適応；（b）埋め込み e_s を予測する別個のエンコーダ g(A_s; Θ) を訓練して、クローン音声から推定する話者エンコーディング。
事前訓練済みモデルから得られた埋め込みと一致するようL1損失で話者エンコーダを訓練し、 unseen speakers に対するゼロショット推論を可能にする。
メルスペクトログラム、 prenets、時系列畳み込み、マルチヘッド自己注意機構を用いて、複数のクローン用サンプルから情報を統合する。
MOSと類似性テストによるクローン品質評価、ならびに話者分類と話者検証といった識別モデルを用いた評価を行う。
潜在埋め込みを操作して性別と訛りを変更する埋め込みベースの声モーフィングを実証する。

実験結果

リサーチクエスチョン

RQ1事前訓練済みの多声TTSモデルを、わずかなサンプルで unseen speakers に迅速に適応させることは可能か。
RQ2生成器を微調整せずに効果的な話者埋め込みを作成できる専用の話者エンコーダは機能するか。
RQ3特にデータが限られている場合、クローン法は自然さと話者類似性においてどう比較されるか。
RQ4自動識別的評価（話者分類と検証）は、クローン品質を信頼性高く評価できるか。
RQ5埋め込みを操作して、性別・訛りの制御可能な声モーフィングを実現できるか。

主な発見

話者適応と話者エンコーディングの双方が、クローン音声の少数サンプルで良好な自然さと類似性を達成する。
全モデルを適応する場合は、より多くのクローンデータで類似性が向上する傾向だが、埋め込みのみの適応は訓練が速い。
話者エンコーディングはクローン時間とメモリ要件を大幅に削減し、低リソース展開に有利。
自動評価（話者分類と検証）は、人間のクローン品質の判断と相関する。
埋め込み操作は、クローン音声において性別と訛りの知的にも理解可能な変換を生み出せる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。