[論文レビュー] AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
AudioToken は音声信号をテキストのようなトークンにマップし、事前学習済みのテキスト-to-画像拡散モデルを条件付けできるようにし、音声条件付き画像生成を競争力のある目的と主観的性能で実現します。
In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
研究の動機と目的
- 既存のテキスト-to-画像拡散モデルを用いて、音声条件付きの画像生成を動機付け、実現する。
- 音声表現をテキスト埋め込み空間へ写像する軽量な適応レイヤを作成する。
- 事前学習済みの音声エンコーダと拡散モデルを活用する音声トークンと学習目的を開発する。
提案手法
- 事前学習済みのテキスト-to-画像拡散モデルをベースの生成器として使用する。
- 音声をテキスト空間の e_audio トークンに変換する Embedder を導入する。
- 音声エンコーダと生成器を凍結したまま、Embedder(射影層とプーリング層)のみを訓練する。
- 潜在拡散モデルの損失 L_LDM を採用し、オプションの分類損失 L_CL を用いて音声トークンと映像ラベルを整合させる。
- 時間的オーディオ埋め込みを圧縮するために注意機構付きプーリングを適用する。
- VGGSoundデータを用いて AIS、IIS、AIC、FID、および人間の判断で評価する。
実験結果
リサーチクエスチョン
- RQ1音声信号をテキストのようなトークンに効果的にエンコードして、テキスト-to-画像拡散モデルを条件付けることは可能か?
- RQ2AudioToken アプローチは、ベースラインと比較して高品質で多様な画像を音声シーンに整合させて生成できるか?
- RQ3音声から画像への生成品質と意味的一致を最も適切に捉える評価フレームワークはどれか?
主な発見
| Method | AIC | FID | AIS | IIS |
|---|---|---|---|---|
| Reference | 54.66 | - | - | - |
| SD (Text) | 71.28 | 52.85 | - | - |
| Wav2Clip [30] | 29.32 | 99.89 | 47.76 | 51.11 |
| ImageBind [37] | 39.15 | 67.42 | 67.48 | 75.50 |
| AudioToken with CL | 48.01 | 66.08 | 62.28 | 76.40 |
| AudioToken | 45.48 | 56.65 | 68.23 | 76.66 |
- AudioToken は評価指標で Wav2Clip と ImageBind より AIS と IIS が高い。
- AudioToken は AIC と FID でベースラインを上回り、画像品質と意味的整合性が向上。
- Classification Loss (CL) の追加は、特定の指標(例: AIS, IIS)を改善する一方で、他の指標とトレードオフになる可能性がある。
- 主観評価では AudioToken が 4.07±0.83 を記録し、Wav2Clip (1.85±0.46) を上回り、テキストラベル付き SD に近い値(4.58±0.60)を示す。
- 定性的な話者ビジュアルでは、方法が特徴的な声(例: Barack Obama、Donald Trump)を捉え、他の声には性別の手掛かりを示す。
- このアプローチは軽量な訓練可能な Embedder を用い、凍結された事前学習済み音声エンコーダと拡散バックボーンを活用する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。