QUICK REVIEW

[論文レビュー] SoundStorm: Efficient Parallel Audio Generation

Zalán Borsos, Matt Sharifi|arXiv (Cornell University)|May 16, 2023

Music and Audio Processing被引用数 17

ひとこと要約

SoundStorm は非自己回帰型、RVQ対応の音声生成器で、意味的トークンに条件付けして AudioLM レベルの品質を提供するが、2桁のオーダーの高速化を実現。長文対話合成と並列デコードの拡張スケーラビリティを可能にする。

ABSTRACT

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.

研究の動機と目的

RVQトークン列における自己注意の二乗コストに対処することで、長いシーケンスの効率的な音声生成を動機づける。
階層的 RVQ 構造を活用した並列・レベルごとのトークン予測のためのアーキテクチャと学習スキームを開発する。
AudioLM のドロップイン音響生成器の置換を可能にし、制御されたプロンプトを用いたマルチスピーカ対話合成を実演する。

提案手法

AudioLM 由来の意味トークンを条件として、双方向 Conformer を用いて多レベル RVQ トークンを予測する。
条件トークンを SoundStream フレームトークンと交互に配置し、フレームごとに埋め込みを和算し、RVQ レベルごとに専用の出力ヘッドを用いる。
MaskGIT に着想を得たマスキングと信頼度に基づく反復デコードを RVQ レベルへ拡張し、粗い段階から細かい段階へとレベルごとに進行する。
推論を写し出すマスキング方式で訓練する：RVQ レベルをサンプルし、そのレベルとすべてのより細かなレベルのトークンの一部をマスクし、そのレベルのマスクされたトークンのみで損失を計算する。
RVQ レベルごとに数回の反復でデコードし、マスクされた位置ごとに信頼度スコアに導かれて複数の候補をサンプリングし、各レベルの最終反復では貪欲デコードを行う。

実験結果

リサーチクエスチョン

RQ1RVQ トークン列の並列非自己回帰デコードは、音声合成時間を大幅に短縮しつつ AudioLM 相当の音質を達成できるか。
RQ2階層的 RVQ 構造をレベル別のマスキングとデコードで活用することは、長尺音声の一貫性と声の保持を改善するか。
RQ3SoundStorm は、制御された話者プロンプトとトランスクリプトを用いた自然なマルチターン対話合成をどの程度実現できるか。

主な発見

SoundStorm は AudioLM の音響生成器と同等の音声品質を達成しつつ、より高い音響的一貫性とより良い声の保持を実現する。
SoundStorm は AudioLM の自己回帰音響生成器より二桁の高速化で、30秒の音声合成を TPU-v4 で約0.5秒程度に達成する。
対話合成実験では、SoundStorm はプロンプト制御の話者IDと発話内容を用いた自然なマルチターン対話を実現し、総計30秒の合成を約2秒で行う。
マスキングベースのレベル別デコード方式は、RVQ レベル内で複数トークンを並列生成でき、計算量を削減しつつ品質を維持する。
音声品質推定値（MOS）は SoundStorm が AudioLM と同等を示し、WER/CER 指標は複数の設定で AudioLM のベースラインより音声理解度が向上することを示す。
長めの音声列では、SoundStorm によって AudioLM より音響的一貫性のずれが減少する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。