QUICK REVIEW

[論文レビュー] Low-Resource Guidance for Controllable Latent Audio Diffusion

Zachary Novack, Zack Zukowski|arXiv (Cornell University)|Mar 4, 2026

Music and Audio Processing被引用数 0

ひとこと要約

本論文は Latent-Control Heads (LatCHs) と選択的 Text-Free Guidance (TFG) を提案し、デコーダー逆伝播を回避しつつ大規模モデルを訓練せずに、低計算コストで制御可能な潜在音響拡散を実現する。

ABSTRACT

Generative audio requires fine-grained controllable outputs, yet most existing methods require model retraining on specific controls or inference-time controls ( extit{e.g.}, guidance) that can also be computationally demanding. By examining the bottlenecks of existing guidance-based controls, in particular their high cost-per-step due to decoder backpropagation, we introduce a guidance-based approach through selective TFG and Latent-Control Heads (LatCHs), which enables controlling latent audio diffusion models with low computational overhead. LatCHs operate directly in latent space, avoiding the expensive decoder step, and requiring minimal training resources (7M parameters and $\approx$ 4 hours of training). Experiments with Stable Audio Open demonstrate effective control over intensity, pitch, and beats (and a combination of those) while maintaining generation quality. Our method balances precision and audio fidelity with far lower computational costs than standard end-to-end guidance. Demo examples can be found at https://zacharynovack.github.io/latch/latch.html.

研究の動機と目的

高価な再訓練や重い推論を伴わないガイダンスベースの方法で、制御可能な音声生成を動機づける。
信号空間ではなく潜在空間で運用することでガイダンスの計算負荷を削減する。
軽量な訓練で個別制御および複数制御の操作（例：強度、音高、ビート）を可能にする。
制御精度と音声 fidelity のバランスを取るため Stable Audio Open でアプローチを実 demostratesする。

提案手法

ガイダンスを拡散ステップのサブセットにのみ適用してコストを削減する選択的 TFG を提案する。
潜在表現を直接制御特徴へマッピングしデコーダー逆伝播を回避する Latent-Control Heads (LatCHs) を導入する。
LatCHs を軽量 (~7M パラメータ程度) のモジュールとして訓練し、Latents からノイズ条件付き変種 LatCH-F および LatCH-B で制御信号を予測する。
潜在空間のガイダンスには DDIM サンプリングと v-diffusion パラメータ化、およびスコアベースの拡散目的を用いる。
複数の制御を平均化した制御損失とサンプリング時の CFG を組み合わせて実現する。
SAO をベースモデルとして、強度、音高、ビートの制御を評価する。

実験結果

リサーチクエスチョン

RQ1潜在空間でのガイダンス実行は音声空間へデコードしてから戻すより効率的に制御を実現できるか。
RQ2拡散ステップのサブセットで選択的ガイダンスを行っても音質を保持・改善し、計算量を削減できるか。
RQ3 LatCHs はさまざまな制御（強度、音高、ビート）に対して潜在表現から制御信号を予測する点で軽量ながら有効か。
RQ4 LatCHs と選択的 TFG を用いた場合の制御精度、音声 fidelity、実行時のトレードオフはどうなるか。
RQ5エンドツーエンドのガイダンスやリードアウトと比較して品質と効率はどう異なるか。

主な発見

LatCHs はデコーダーを介した逆伝播を回避しつつ潜在を制御特徴へマッピングすることで低リソースなガイダンスを可能にする。
選択的 TFG は初期の拡散ステップのみにガイダンスを適用することで、制御順守の大きな低下を伴わずに実行時間を短縮する。
LatCH-B は評価した構成の中で、音声品質・プロンプト順守・制御整合性・効率のバランスを最も良く取れる。
エンドツーエンドのガイダンスは強い制御を提供するが計算コストが大幅に高く、リードアウトは多くの場合品質が劣る。
本アプローチは複数の制御（例：ビートと強度）を同時にサポートし、長時間音声（最大 47.55 s まで）でも堅牢に機能する。
1D の制御（例：強度、ビート）は高次元の音高マッピングよりガイダンスの信頼性が高い傾向にある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。