QUICK REVIEW

[論文レビュー] OpenVoice: Versatile Instant Voice Cloning

Zengyi Qin, Wenliang Zhao|arXiv (Cornell University)|Dec 3, 2023

Speech Recognition and Synthesis被引用数 10

ひとこと要約

OpenVoice はトーンカラーのクローンを声のスタイルと言語制御から切り離し、基盤スピーカーTTSモデルとトーンカラー変換器を用いた高速なフィードフォワード推論で、ゼロショット跨言語の声のクローンを柔軟に実現します。

ABSTRACT

We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. OpenVoice has been used by more than 2M users worldwide as the voice engine of MyShell.ai

研究の動機と目的

トーンカラーを超えた感情、アクセント、リズム、ポーズ、イントネーションを含む、声のスタイルの柔軟な制御を促進する。
ターゲット言語の巨大な多話者多言語データを必要とせず、ゼロショットの跨言語声のクローンを実現する。
トーンカラーのクローンを他の声の属性から切り離し、学習を単純化し言語間の一般化を向上させる。
商業規模のデプロイに適した高速なリアルタイム推論を達成する。
研究の進展を促進するために、ソースコードと訓練済みモデルを公開する。

提案手法

言語とスタイルパラメータ（感情、アクセント、リズム、ポーズ、イントネーション）を制御するために、基盤スピーカーTTSモデルを使用する。
参照トーンカラーを生成音声に埋め込むトーンカラー変換器を、可逆正規化フローを用いて適用する。
入力特徴を X(LI,SI,CO)、ターゲットを X(LO,SO,CO) と表現し、変換器がトーンカラーを変換する一方で他のスタイルを保持する。
参照と基盤スピーカー出力からトーンカラーを抽出するトーンカラーエンコーダと正規化フローを用いて、トーンカラー情報を除去し再付加する。
最終表現をHiFi-GANでデコードして、ターゲット言語とスタイルのウェーブフォームを生成する。
言語と感情の埋め込みを用いたマルチスピーカデータで基盤TTSを訓練する。IPAベースの音素対合わせとフローに基づくディスタングルメントでトーンカラー変換器を訓練する。

実験結果

リサーチクエスチョン

RQ1OpenVoice は、訓練データに含まれない言語に対してゼロショット跨言語声のクローンを実現できますか？
RQ2トーンカラー変換器は、トーンカラーを他の声のスタイルからディスタングルして、新しい言語へのクローン時にもそれらを維持できますか？
RQ3言語/スタイル生成をトーンカラーから切り離すことは、クローン後のスタイル制御の柔軟性と推論の効率化をもたらしますか？
RQ4実時間アプリケーションに適した高速なフィードフォワード推論が可能ですか？

主な発見

OpenVoice は複数の基盤スピーカを用いて、言語やアクセントを跨ぐ正確なトーンカラークローンを実現します。
トーンカラー変換器は、トーンカラーをクローンした後も基盤の声のスタイル（感情、アクセント、リズム、ポーズ、イントネーション）を保持します。
ベーススピーカが言語をサポートしていれば、未見の参照言語と未見のターゲット言語に対してゼロショット跨言語クローンが機能します。
フィードフォワードアーキテクチャにより推論が高速で、単一の A10G GPU で 12x リアルタイム（85 ms per second of speech）の音声を実証。
IPAベースの音素表現は、跨言語のトーンカラー操作と一般化に不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。