QUICK REVIEW

[論文レビュー] Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

Matthew Le, Apoorv Vyas|arXiv (Cornell University)|Jun 23, 2023

Speech Recognition and Synthesis被引用数 45

ひとこと要約

Voicebox は、非自己回帰のフロー整合モデルで、インコンテキスト学習を通じてスケール可能なテキスト誘導の多言語音声生成を実現し、最先端のゼロショットTTSと従来法より高速な柔軟なインフィリングタスクを達成します。

ABSTRACT

Large-scale generative models such as GPT and DALL-E have revolutionized the research community. These models not only generate high fidelity outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are not filtered or enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. Audio samples can be found in \url{https://voicebox.metademolab.com}.

研究の動機と目的

明示的なファインチューニングなしで多様なタスクに対応できる、スケーラブルで汎用的な音声生成モデルの必要性を動機づける。
タスク一般化を可能にするために、大規模で実世界のデータセットで訓練されたテキストガイド付き音声インフィリングのフレームワークを提案する。
効率的な推論のために、flow matching と最適輸送パスで訓練された非自己回帰フロー系モデル（CNF）を開発する。
長さ（デュレーション）と音声モデリングを分離して、微細なアラインメント制御と柔軟な推論を可能にする。
Voicebox が単一言語および多言語のゼロショットTTS、デノイジング、編集、そして多様なサンプリングでSOTA結果を達成しつつ、より高速な生成を実現することを示す。

提案手法

モデル: テキスト誘導音声インフィリングのために構築された非自己回帰連続正規化フロー（CNF）。
訓練: 条件パスを介して p_t(x) を学習するための flow matching 目的と最適輸送（OT）パス。
条件付け: オーディオコンテキスト x_ctx とフレームレベルの転写 z（デュレーション l を伴う）が q(x_mis | z, x_ctx) を駆動する。
アーキテクチャ: 音素埋め込みを用いた (x_t, x_ctx, z) 上でパラメータ化された Transformer ベースのベクトル場 v_t；長さ l の別個デュレーションモデル。
推論: x_0 を p_0 からサンプリングして ODE を解く；関数評価数（NFE）が速度/品質を制御する；多様性と忠実度のトレードオフのための任意の classifier-free guidance (CFG) のオプション。
評価指標: HuBERT-L または Whisper を用いた WER、埋め込み類似度によるコヒーレンス（SIM-o vs SIM-r）、wav2vec 特徴量を用いた Fréchet 風 FSD、そして MOS ベースの主観的スコア。

実験結果

リサーチクエスチョン

RQ1明示的なファインチューニングなしで、インコンテキスト学習を通じて単一のテキスト条件付きモデルを訓練して複数の音声生成タスクを実行できるか。
RQ2flow matching と OT パスを用いた非自己回帰 CNF は、単一言語および多言語のゼロショットTTS、デノイジング、編集、そして多様なサンプリングにおいて、従来のSOTAモデルと比べてどのような性能を示すか。
RQ3テキスト誘導インフィリングは、スタイルラベルや事前学習済み埋め込みを用いずに、複数言語に跨る高品質なクロスリンガルゼロショットTTSを実現できるか。
RQ4デュレーションと音声モデリングを切り離すことは、アラインメント制御と推論効率を改善するか。
RQ5多様な音声生成タスクにおいて、知覚品質と明瞭性を最もよく反映する指標は何か。

主な発見

Voicebox は英語のゼロショットTTSでSOTAを達成し、WER を 5.9% から 1.9%（WER）へ、音声類似度を 0.580 から 0.681 へ改善。
Voicebox はスタイルラベルや多言語プロンプトを使用せず、6言語にわたる高品質なクロスリンガルゼロショットTTS を達成。
音声デノイジングとコンテンツ編集において、Voicebox は従来のSOTAを上回り、-8.8% WERと+0.450類似度、さらに+0.80 MOSを達成。
このモデルは任意の長さの音声インフィリングをサポートし、自己回帰法と比較して生成をより高速化（10 NFE 未満）できる。
Voicebox で生成された合成音声は、実データとは異なり Librispeech のテストセットで WER の劣化がほとんどなく（絶対値で 0.4%/1.7% の増加）、ASR の訓練に使用できる、従来の TTS モデルとは異なる。
Voicebox はインコンテキスト学習様の挙動を通じて、多様で現実的な音声サンプリングと内容/スタイル編集機能を提供します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。