[论文解读] MuLan: A Joint Embedding of Music Audio and Natural Language
MuLan 在 44M 首音乐片段上训练两塔式音频-文本嵌入模型,将音乐音频与无约束的自然语言连接起来,实现零样本标记和跨模态检索。它在迁移学习方面表现强劲,同时为音乐音频提供自然语言界面。
Music tagging and content-based retrieval systems have traditionally been constructed using pre-defined ontologies covering a rigid set of music attributes or text queries. This paper presents MuLan: a first attempt at a new generation of acoustic models that link music audio directly to unconstrained natural language music descriptions. MuLan takes the form of a two-tower, joint audio-text embedding model trained using 44 million music recordings (370K hours) and weakly-associated, free-form text annotations. Through its compatibility with a wide range of music genres and text styles (including conventional music tags), the resulting audio-text representation subsumes existing ontologies while graduating to true zero-shot functionalities. We demonstrate the versatility of the MuLan embeddings with a range of experiments including transfer learning, zero-shot music tagging, language understanding in the music domain, and cross-modal retrieval applications.
研究动机与目标
- 通过学习音频与文本的共享嵌入空间,为音乐音频创建一个灵活的、自然语言界面。
- 利用大规模弱关联文本注释来训练跨模态表示。
- 通过学习得到的嵌入,展示零样本标注、音乐领域的语言理解以及跨模态检索。
- 在标准音乐标注基准上评估音频编码器的迁移学习性能。
- 探索不同文本来源(短文本、长文本、播放列表、ASET)对跨模态学习的影响。
提出的方法
- 两塔式架构,具有分离的音频编码器和文本编码器,产生维度为 d=128 的 L2 归一化嵌入。
- 音频编码器:ResNet-50 或 Audio Spectrogram Transformer (AST),在 10 秒对数梅尔谱窗上运行,并使用 SpecAugment。
- 文本编码器:BERT-base-uncased,产生 CLS token 嵌入并投影到共享空间。
- 训练目标:对比多视图编码损失(跨模态 InfoNCE/NT-Xent),使用余弦相似度和一个可训练温度 tau。
- 训练数据:约 44M 条 30 秒音乐片段及来自短文本标签、长文本描述、播放列表和 AudioSet 标签的弱相关文本;数据采样采用固定的小批量比例 2:2:1:1(SF:LF:PL:ASET)。
- 预训练:音频编码器在 AudioSet 上进行预训练;文本编码器从 BERT 开始进行 warm-start。
实验结果
研究问题
- RQ1能否通过从弱关联的自然语言中学习的联合音频-文本嵌入,实现超越固定本体的零样本音乐标注?
- RQ2在多样的文本风格下,使用跨模态对比学习的两塔架构是否能有效将自由文本映射到音乐音频?
- RQ3MuLan 在跨模态音乐检索和音乐领域语言理解方面的支持程度如何?
- RQ4不同文本数据源(短文本、长文本、播放列表、ASET)如何影响跨模态定位与后续任务?
- RQ5将 ResNet-50 与 AST 作为音频编码器对零样本标注与检索性能有何影响?
主要发现
- MuLan 在 MagnaTagATune (MTAT) 和 AudioSet (Gen-25 和 Mu-141) 基准测试中实现了具有竞争力的零样本标注性能,M-Resnet-50 与 M-AST 结果相当。
- 整合多样的文本来源通常改善下游任务;过滤在某些设置中有帮助,但未过滤的数据由于对比学习的噪声容忍性,仍然出色。
- 在 MuLan 音频嵌入上的线性探针在标注基准上实现了最先进的迁移学习性能,表明具备强大的通用音频表示。
- MuLan 通过文本查询实现跨模态检索,在包含短文本、长文本以及播放列表数据时性能提升,尤其适用于复杂、含多术语和否定丰富的查询。
- 在 MuLan 内对文本嵌入进行微调,使用音乐领域数据和跨模态损失,相较于通用句子嵌入,提升文本三元组分类准确性。
- 端到端基线表现具有竞争力,但 MuLan 的两塔式方法及共享嵌入空间提供了超越固定词汇表的多功能零样本和检索能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。