QUICK REVIEW

[論文レビュー] Fast Timing-Conditioned Latent Audio Diffusion

Zach Evans, CJ Carr|arXiv (Cornell University)|Feb 7, 2024

Music and Audio Processing被引用数 6

ひとこと要約

本論文は Stable Audio を紹介する。これはテキストと時間情報で条件付けされた潜在拡散モデルで、長尺・可変長の 44.1kHz ステレオ音声（最大 95 秒）を、A100 GPU 上で高速推論可能に生成し、 prompts から構造化された音楽とステレオ効果を実現する。

ABSTRACT

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.

研究の動機と目的

効率的に長尺・可変長の 44.1kHz ステレオ音声をテキストプロンプトから生成する動機づけ。
内容と長さの両方をタイミング埋め込みで制御可能にする。
ステレオ出力と可変長をサポートする潜在拡散フレームワークを開発・評価する。
長尺の全帯域ステレオ音声の新しい評価指標を提案する。
モデルが長尺のテキスト-to-オーディオタスクで競争力あるいは最先端の結果を達成することを示す。

提案手法

44.1kHz ステレオ音声を潜在表現に対して 1024 の因子でエンコードするための完全畳み込み VAE を使用。
CLAP ベースの埋め込みを介してテキストプロンプトで拡散 U-Net を条件付ける。
訓練ウィンドウ内で可変長出力を可能にする、1秒ごとの学習済みタイミング埋め込みを導入する。
クロスアテンションによる conditioning signals と FiLM ベースの timestep 条件付けを用いた 907M パラメータの拡散 U-Net を訓練する。
データセット上で CLAP テキストエンコーダをゼロから訓練する。推論時には 100 diffusion steps で classifier-free guidance を使用する。
A100 GPU で 95 秒までのステレオ音声を 8 秒で 44.1kHz でレンダリングする。

実験結果

リサーチクエスチョン

RQ1テキストプロンプトから長尺・可変長の 44.1kHz ステレオ音声を潜在拡散で効率的に生成できるか。
RQ2タイミング条件付けは出力長を信頼性高く制御し、使われない部分を静寂で埋めることを可能にするか。
RQ3音声品質、テキスト整合性、ステレオ精度は長尺タスクで最先端モデルと比べてどうか。
RQ4長尺の全帯域ステレオ音声生成を評価する効果的な指標は何か。
RQ5モデルはイントロ・展開・アウトロを含む構造化された音楽を生成できるか。

主な発見

Stable Audio は最大 95 秒のステレオ音声を 8 秒で 44.1kHz でレンダリングできる。
長尺の MusicCaps および AudioCaps 評価で競争力あるいは最先端の結果を達成する。
タイミング条件付けは出力長を信頼性高く制御し、中間長さのデータ分布の影響で若干のばらつきがある。
モデルは MusicCaps における音声品質とテキスト整合性でいくつかのベースラインを上回り、ステレオ音楽生成でも競争力を維持する。
定性的には Stable Audio は構造化された音楽（イントロ、展開、アウトロ）とステレオ効果を示す。
推論時には要求長を超える間を静寂で埋めることにより可変長出力を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。