Skip to main content
QUICK REVIEW

[論文レビュー] Frame-level Instrument Recognition by Timbre and Pitch

Yun-Ning Hung, Yi‐Hsuan Yang|arXiv (Cornell University)|Sep 23, 2018
Music and Audio Processing参考文献 32被引用数 4
ひとこと要約

本論文では、音色とチューニング特徴量を用いて、マルチインストゥルメンタル音楽におけるフレーム単位の楽器認識のための畳み込みニューラルネットワークを提案する。このタスクは、フレーム単位のアノテーションを用いたマルチラベル分類として扱われる。チューニング情報を組み込むことで、モデルが調性部分音のエネルギー変化を学習できるようになり、MusicNetデータセットにおいて最先端の結果を達成した。

ABSTRACT

Instrument recognition is a fundamental task in music information retrieval, yet little has been done to predict the presence of instruments in multi-instrument music for each time frame. This task is important for not only automatic transcription but also many retrieval problems. In this paper, we use the newly released MusicNet dataset to study this front, by building and evaluating a convolutional neural network for making frame-level instrument prediction. We consider it as a multi-label classification problem for each frame and use frame-level annotations as the supervisory signal in training the network. Moreover, we experiment with different ways to incorporate pitch information to our model, with the premise that doing so informs the model the notes that are active per frame, and also encourages the model to learn relative rates of energy buildup in the harmonic partials of different instruments. Experiments show salient performance improvement over baseline methods. We also report an analysis probing how pitch information helps the instrument prediction task. Code and experiment details can be found at https://biboamy. github.io/instrument-recognition/.

研究の動機と目的

  • マルチインストゥルメンタル音楽におけるフレーム単位の楽器認識の不足に取り組み、自動音楽記録および検索のための重要な要件を満たす。
  • フレーム単位のアノテーションを用いて、各時間フレームにおける楽器の存在をマルチラベル分類問題としてモデル化する。
  • チューニング情報が、アクティブな音符や調性エネルギーのダイナミクスをどのように明らかにするかを調査する。
  • チューニング統合が、楽器認識におけるモデルの性能と解釈可能性に与える影響を評価する。

提案手法

  • 本研究では、MusicNetデータセットのフレーム単位のアノテーションを教師信号として用い、マルチラベル分類のための畳み込みニューラルネットワークを訓練する。
  • 音色特徴量は、メルスペクトログ램などのスペクトル表現を用いて音声フレームから抽出される。
  • チューニング情報を、各フレームにおけるアクティブな音符を、ワンホットエンコーディングされたベクトルまたは埋め込み表現としてモデルに条件づけることで統合する。
  • モデルは、チューニングに依存する特徴量に注目することで、調性部分音における相対的エネルギー上昇率を学習する。
  • 最適な音色特徴量とチューニング情報の統合方法を特定するため、異なるアーキテクチャと統合戦略を評価する。
  • 過学習を防ぐために、ラベルスムージングと早期停止を用いた交差エントロピー損失関数を用いて訓練を行う。

実験結果

リサーチクエスチョン

  • RQ1チューニング情報を組み込むことで、フレーム単位の楽器認識性能にどのような影響を与えるか?
  • RQ2チューニング情報は、楽器間で共通する調性部分音エネルギーのダイナミクスをどの程度モデルが学習可能にするか?
  • RQ3チューニングに依存するモデリングは、単に音色特徴量に依存する場合と比較して、楽器認識の一般化性能を向上させるか?
  • RQ4埋め込み表現とワンホット表現の両方を用いたチューニング統合手法は、モデルの精度と頑健性にどのように影響を与えるか?

主な発見

  • チューニング情報を組み込むことで、単に音色特徴量に依存するベースラインモデルと比較して、顕著な性能向上が達成された。
  • 本モデルは、MusicNetデータセットにおけるフレーム単位の楽器認識で、最先端の性能を達成した。
  • チューニング条件付きモデリングにより、楽器間で特徴的なエネルギー上昇パターンをモデルがより良く捉えることができた。
  • アブレーションスタディの結果、全楽器クラスにおいてチューニング統合が一貫して性能向上をもたらした。
  • チューニング情報を入力表現に含めることで、ポリフォニックな複雑さに対するモデルの頑健性が向上した。
  • 解析の結果、同じ音色特徴を持つ楽器を、特に密集した音楽的状況で明確に区別するのをチューニング情報が支援することがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。