Skip to main content
QUICK REVIEW

[论文解读] Frame-level Instrument Recognition by Timbre and Pitch

Yun-Ning Hung, Yi‐Hsuan Yang|arXiv (Cornell University)|Sep 23, 2018
Music and Audio Processing参考文献 32被引用 4
一句话总结

本文提出一种卷积神经网络,用于多乐器音乐中的帧级乐器识别,利用音色和音高特征,将任务视为带有帧级标注的多标签分类。引入音高信息显著提升了性能,使模型能够学习谐波泛音能量动态,从而在MusicNet数据集上取得最先进结果。

ABSTRACT

Instrument recognition is a fundamental task in music information retrieval, yet little has been done to predict the presence of instruments in multi-instrument music for each time frame. This task is important for not only automatic transcription but also many retrieval problems. In this paper, we use the newly released MusicNet dataset to study this front, by building and evaluating a convolutional neural network for making frame-level instrument prediction. We consider it as a multi-label classification problem for each frame and use frame-level annotations as the supervisory signal in training the network. Moreover, we experiment with different ways to incorporate pitch information to our model, with the premise that doing so informs the model the notes that are active per frame, and also encourages the model to learn relative rates of energy buildup in the harmonic partials of different instruments. Experiments show salient performance improvement over baseline methods. We also report an analysis probing how pitch information helps the instrument prediction task. Code and experiment details can be found at https://biboamy. github.io/instrument-recognition/.

研究动机与目标

  • 为解决多乐器音乐中帧级乐器识别的缺失问题,这是自动音乐转录和检索的关键需求。
  • 将每帧的乐器存在性建模为多标签分类问题,利用帧级标注。
  • 探究音高信息如何通过揭示活跃音符和谐波能量动态来增强乐器识别。
  • 评估音高整合对模型性能和可解释性在乐器识别中的影响。

提出的方法

  • 使用MusicNet数据集的帧级标注作为监督信号,训练卷积神经网络进行多标签分类。
  • 通过梅尔频谱图等频谱表示从音频帧中提取音色特征。
  • 通过将模型条件设置为每帧的活跃音符(以独热编码向量或嵌入表示形式),将音高信息整合到模型中。
  • 通过关注音高条件特征,模型学习谐波泛音之间的相对能量增长速率。
  • 评估不同架构和特征融合策略,以确定音高与音色特征的最佳整合方式。
  • 训练使用交叉熵损失函数并结合标签平滑和早停策略,以防止过拟合。

实验结果

研究问题

  • RQ1引入音高信息如何影响帧级乐器识别的性能?
  • RQ2音高在多大程度上帮助模型学习跨乐器的谐波泛音能量动态?
  • RQ3音高条件建模能否在仅依赖音色线索的基础上提升乐器识别的泛化能力?
  • RQ4不同音高整合方法(如嵌入与独热编码)如何影响模型的准确性和鲁棒性?

主要发现

  • 引入音高信息相比仅依赖音色特征的基线模型,显著提升了性能。
  • 该模型在MusicNet数据集上的帧级乐器识别任务中达到最先进结果。
  • 音高条件建模使模型能够更好地捕捉谐波泛音能量增长模式,这些是跨乐器的关键判别特征。
  • 消融实验确认,音高整合在所有乐器类别中均一致地提升了性能。
  • 当输入表示中包含音高信息时,模型在复杂多声部音乐中的鲁棒性得到提升。
  • 分析表明,音高有助于区分音色特征相似的乐器,尤其是在密集的音乐段落中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。