[论文解读] Deep Music Analogy Via Latent Representation Disentanglement
本文提出一种显式约束的条件变分自编码器(EC2-VAE),用于在以和弦为条件的8拍旋律中将音高与节奏解耦,通过迁移潜在因子实现类比,并使用客观指标和主观研究进行评估。
Analogy-making is a key method for computer algorithms to generate both natural and creative music pieces. In general, an analogy is made by partially transferring the music abstractions, i.e., high-level representations and their relationships, from one piece to another; however, this procedure requires disentangling music representations, which usually takes little effort for musicians but is non-trivial for computers. Three sub-problems arise: extracting latent representations from the observation, disentangling the representations so that each part has a unique semantic interpretation, and mapping the latent representations back to actual music. In this paper, we contribute an explicitly-constrained variational autoencoder (EC$^2$-VAE) as a unified solution to all three sub-problems. We focus on disentangling the pitch and rhythm representations of 8-beat music clips conditioned on chords. In producing music analogies, this model helps us to realize the imaginary situation of "what if" a piece is composed using a different pitch contour, rhythm pattern, or chord progression by borrowing the representations from other pieces. Finally, we validate the proposed disentanglement method using objective measurements and evaluate the analogy examples by a subjective study.
研究动机与目标
- 通过迁移高级抽象而非原始观测来实现基于类比的音乐生成的动机。
- 开发一个解耦的潜在空间,使音高和节奏具有明确的语义含义。
- 确保解耦不会显著降低重构质量,并使推断时在无相似训练数据的情况下实现类比。
提出的方法
- 使用一个显式约束的条件变分自编码器(EC2-VAE)将潜在变量 z 解耦为 z_p(音高)和 z_r(节奏)。
- 对编码器和解码器均进行和弦条件约束;包括一个聚焦节奏的中间解码任务以强化 z_r 的语义。
- 将潜在 z 分成两部分,并将 z_r 连接到一个以交叉熵训练的节奏解码器,以匹配节奏特征。
- 在某些假设下,证明带解耦的 ELBO 目标至少同标准条件 VAE 一样紧。
- 将旋律表示为 8 拍序列,具有 130 维音高起始空间和 3 维节奏特征;和弦以基于色度的条件提供。
实验结果
研究问题
- RQ1如何在 VAE 框架内显式解耦音乐表示中的音高和节奏?
- RQ2是否通过在作品之间迁移音高、节奏或和弦表示,解耦模型能够实现有意义的类比?
- RQ3显式解耦会否影响重构质量,并且是否能够保持接近原始 ELBO 目标?
- RQ4哪些客观和主观证据能体现模型通过类比进行生成的有效性?
主要发现
| Pitch - 精确度 | Pitch - 召回率 | Pitch - F分数 | Rhythm - 精确度 | Rhythm - 召回率 | Rhythm - F分数 | |
|---|---|---|---|---|---|---|
| EC2-VAE | 0.88 | 0.88 | 0.88 | 0.80 | 0.80 | 0.80 |
| Random | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 | 0.5 |
- EC2-VAE 通过将解码器结构化以分离音高和节奏潜在因子,实现了显式解耦。
- 解耦保持重构质量,并可与和弦条件结合,实现有意义的类比。
- 客观指标表明音高与节奏分离有效(基于 Δz 与 F-score 的增益查询显示与预期因子高度对齐)。
- 定性示例显示通过替换 z_p(音高)或 z_r(节奏)实现成功的类比,同时保留其他方面和和弦条件。
- 主观评估表明 EC2-VAE 的变体比基于规则的基线更具创造性和音乐性,但在自然度和整体音乐性方面仍落后于原始人类创作的曲目。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。