[论文解读] AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation
AudioToken 将音频信号映射为类似文本的令牌,以条件化一个预训练的文本到图像扩散模型,从而实现与竞争性目标和主观表现相当的音频条件图像生成。
In recent years, image generation has shown a great leap in performance, where diffusion models play a central role. Although generating high-quality images, such models are mainly conditioned on textual descriptions. This begs the question: "how can we adopt such models to be conditioned on other modalities?". In this paper, we propose a novel method utilizing latent diffusion models trained for text-to-image-generation to generate images conditioned on audio recordings. Using a pre-trained audio encoding model, the proposed method encodes audio into a new token, which can be considered as an adaptation layer between the audio and text representations. Such a modeling paradigm requires a small number of trainable parameters, making the proposed approach appealing for lightweight optimization. Results suggest the proposed method is superior to the evaluated baseline methods, considering objective and subjective metrics. Code and samples are available at: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
研究动机与目标
- 激发并实现使用现有文本到图像扩散模型的音频条件图像生成。
- 创建一个轻量级的适配层,将音频表示映射到文本嵌入空间。
- 开发一个音频令牌和训练目标,利用预训练的音频编码器和扩散模型。
提出的方法
- 将预训练的文本到图像扩散模型用作基础生成器。
- 引入一个Embedder,将音频转换为文本空间中的 e_audio 令牌。
- 仅训练 Embedder(投影和池化层),同时保持音频编码器和生成器冻结。
- 采用潜在扩散模型损失 L_LDM 以及可选的分类损失 L_CL,使音频令牌与视频标签对齐。
- 应用注意力池化以压缩时序音频嵌入。
- 使用 AIS、IIS、AIC、FID 和人工评估进行评估,使用 VGGSound 数据。
实验结果
研究问题
- RQ1是否可以将音频信号有效编码为一种类文本的令牌,以条件化文本到图像扩散模型?
- RQ2与基线相比,AudioToken 方法是否能产生与音频场景对齐的高质量、多样化图像?
- RQ3哪种评估框架最能捕捉音频到图像生成的质量和语义对齐?
主要发现
| 方法 | AIC | FID | AIS | IIS |
|---|---|---|---|---|
| Reference | 54.66 | - | - | - |
| SD (Text) | 71.28 | 52.85 | - | - |
| Wav2Clip [30] | 29.32 | 99.89 | 47.76 | 51.11 |
| ImageBind [37] | 39.15 | 67.42 | 67.48 | 75.50 |
| AudioToken with CL | 48.01 | 66.08 | 62.28 | 76.40 |
| AudioToken | 45.48 | 56.65 | 68.23 | 76.66 |
- - AudioToken 在评估指标上比 Wav2Clip 和 ImageBind 获得更高的 AIS 和 IIS。
- - AudioToken 在 AIC 和 FID 上超越基线,显示出更好的图像质量和语义对齐。
- - 增加分类损失(CL)在某些指标上提高(如 AIS、IIS),但可能以其他指标为代价。
- - 主观评估显示 AudioToken 得分为 4.07±0.83,胜过 Wav2Clip (1.85±0.46),并接近带文本标签的 SD(4.58±0.60)。
- - 在定性说话者视觉上,该方法捕捉到鲜明的声音特征(如巴拉克·奥巴马、唐纳德·特朗普等)以及对其他人的性别线索。
- - 该方法使用轻量级的可训练 Embedder,并利用冻结的预训练音频编码器和扩 diffusion backbone。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。