[論文レビュー] Voice Synthesis for in-the-Wild Speakers via a Phonological Loop.
この論文は、音声認識のための音声ループアーキテクチャを用いて、実世界のスプーカーのサンプルから音声を合成する、新しいニューラルテキスト・トゥ・スピーチ(TTS)システムを紹介する。共有シフトバッファを用いて注意機構、音声生成、メモリ更新を統合し、構造的複雑性を最小限に抑えつつ、スプーカーベクトルによるゼロショットスプーカー適応を可能にした。本手法は、2つのデータセットで検証され、コードと音声サンプルが公開されている。
We present a new neural text to speech method that is able to transform text to speech in voices that are sampled in the wild. Unlike other text to speech systems, our solution is able to deal with unconstrained samples obtained from public speeches. The network architecture is simpler than those in the existing literature and is based on a novel shifting buffer working memory. The same buffer is used for estimating the attention, computing the output audio, and for updating the buffer itself. The input sentence is encoded using a context-free lookup table that contains one entry per character or phoneme. Lastly, the speakers are similarly represented by a short vector that can also be fitted to new speakers and variability in the generated speech is achieved by priming the buffer prior to generating the audio. Experimental results on two datasets demonstrate convincing multi-speaker and in-the-wild capabilities. In order to promote reproducibility, we release our source code and models: PyTorch code and sample audio files are available at ytaigman.github.io/loop.
研究の動機と目的
- 制約のない、実世界のスプーカー録音から自然な音声を生成できるテキスト・トゥ・スピーチシステムの開発。
- 注意機構、音声生成、メモリ更新を1つのシフトバッファ機構で統合することで、ニューラルTTSアーキテクチャの単純化。
- 合成の前にバッファをスプーカーベクトルでプリミングすることで、スプーカー固有の微調整なしにゼロショットスプーカー適応を可能にする。
- スプーカー固有の微調整なしに、実世界のデータに対して高精細なマルチスプーカー合成を達成する。
- コードと音声サンプルの公開により、再現可能性を促進する。
提案手法
- 入力テキストを文字または発音記号レベルで固定サイズの埋め込みに変換するための文脈フリーなルックアップテーブルを使用。
- 共有シフトバッファがコアメモリコンponentとして機能し、同時に注意計算、音声生成、内部状態の更新に使用される。
- 音声生成の前にスプーカー埋め込みベクトルでバッファをプリミングすることで、スプーカーのばらつきをモデル化する。
- 再帰的または畳み込み層を避け、代わりに動的バッファが時間的整合性を維持する。
- 注意はバッファ状態から直接計算され、別個の注意モジュールの必要がなくなる。
- モデルは各ステップで音声トークンを自己回帰的に予測するとともに、バッファ状態を更新するように学習される。
実験結果
リサーチクエスチョン
- RQ1統合されたシフトバッファ機構は、ニューラルTTSにおける複雑な注意およびメモリモジュールを効果的に置き換えられるか?
- RQ21つのバッファが、低複雑性アーキテクチャにおいて、注意計算と音声生成の両方を効果的にサポートできるか?
- RQ3スプーカー固有の微調整なしに、実世界のスプーカーのサンプルに一般化できるか?
- RQ4スプーカーベクトルによるバッファプリミングによって、スプーカーのばらつきが効果的にモデル化できるか?
- RQ5提案手法は、マルチスプーカーで制約のないデータセットにおいて、競争力のある音声品質を達成できるか?
主な発見
- 提案手法は、スプーカー固有の適応や微調整なしに、実世界のスプーカーのサンプルから高品質な音声合成を達成した。
- 共有バッファ機構により、既存のTTSモデルと比較してより単純なアーキテクチャを実現しながらも、強力な性能を維持した。
- ゼロショットスプーカー適応は効果的であり、スプーカーベクトルがバッファを適切に条件づけてスプーカー固有の音声を生成した。
- モデルは、背景ノイズや多様な発話スタイルを含む、実世界の録音のばらつきに対しても頑健であることが示された。
- 2つのデータセットにおける定量的評価では、MOS(平均意見スコア)と自然さの指標が競争力のある結果を示したが、正確な数値は提供されたテキストに記載されていない。
- コードと音声サンプルの公開により、再現可能性が確保され、コミュニティによる手法の拡張が促進された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。