QUICK REVIEW

[論文レビュー] Instrument-Independent Dastgah Recognition of Iranian Classical Music Using AzarNet

Shahla RezezadehAzar, Ali Ahmadi|arXiv (Cornell University)|Jan 1, 2018

Music and Audio Processing参考文献 21被引用数 2

ひとこと要約

本稿では、マイヤム・イラン音楽古典音楽（MICM）データセットを用いて、音楽的楽器に依存しないダストガート認識を達成する深層畳み込みニューラルネットワーク「アザルネット」を提案する。短時間フーリエ変換（STFT）を用いて音声信号を時間周波数表現に変換することで、アザルネットは7つのダストガートを分類し、全体のF1スコア86.21%を達成した。これは、このタスクに関してこれまで報告された最高の結果である。

ABSTRACT

In this paper, AzarNet, a deep neural network (DNN), is proposed to recognizing seven different Dastgahs of Iranian classical music in Maryam Iranian classical music (MICM) dataset. Over the last years, there has been remarkable interest in employing feature learning and DNNs which lead to decreasing the required engineering effort. DNNs have shown better performance in many classification tasks such as audio signal classification compares to shallow processing architectures. Despite image data, audio data need some preprocessing steps to extract spectra and temporal features. Some transformations like Short-Time Fourier Transform (STFT) have been used in the state of art researches to transform audio signals from time-domain to time-frequency domain to extract both temporal and spectra features. In this research, the STFT output results which are extracted features are given to AzarNet for learning and classification processes. It is worth noting that, the mentioned dataset contains music tracks composed with two instruments (violin and straw). The overall f1 score of AzarNet on test set, for average of all seven classes was 86.21% which is the best result ever reported in Dastgah classification according to our best knowledge.

研究の動機と目的

イラン古典音楽における楽器に依存しないダストガート分類手法の開発。
従来の浅い学習および単層ニューラルネットワーク手法よりも分類精度の向上。
STFT変換されたスペクトログラムを介して、生の音声から自動特徴量学習を実現する深層ニューラルネットワークの活用。
新しく導入された多様な楽器を含むデータセット（MICM）を用いて、ダストガート認識の新しいベンチマークの確立。
スペクトル的および時間的パターンをモデル化するための残差接続、バッチ正則化、およびGRUの有効性の検証。

提案手法

MICMデータセットの生の音声信号は、短時間フーリエ変換（STFT）を用いて時間周波数表現に変換される。
得られたスペクトログラムは、残差ブロック、バッチ正則化、ドロップアウト層を備えた深層畳み込みニューラルネットワーク「アザルネット」に供給される。
ネットワークアーキテクチャには、3×3のカーネルサイズを持つ5つの2次元畳み込み層が含まれており、その後にマックスプーリングとバッチ正則化が続き、活性化関数としてLeaky ReLU（alpha=0.1）を用いる。
最終的な畳み込みブロックの後にGRU層を適用し、スペクトログラム特徴量における順序的依存性をモデル化する。
過学習を防ぐために、畳み込み層およびGRU層の両方にL2およびL1正則化（LAD+LSE、ペナルティ0.01）が適用される。
最終分類器には、多クラスダストガート分類のためのソフトマックス活性化関数を用いた2つの全結合層が使用される。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークは、楽器に依存する特徴に依存せずに、高い精度でダストガート認識を達成できるか？
RQ2STFT変換スペクトログラムと深層CNNを組み合わせることで、生の音声やFFTベースの手法と比較して分類性能が向上するか？
RQ3残差接続、バッチ正則化、およびGRUは、ペルシャ古典音楽のスペクトル的および時間的パターンのモデル化にどの程度有効か？
RQ4新しく導入された楽器多様なデータセットを用いたDNNベースのアプローチのダストガート分類におけるパフォーマンスはいかがなものか？
RQ5提案手法は、単層ニューラルネットワークのような単純なアーキテクチャを用いた既存の最先端モデルを上回ることができるか？

主な発見

アザルネットは、MICMテストセットにおいて全体のF1スコア86.21%を達成し、7クラスのダストガート分類に関してこれまで報告された最高の結果である。
以前の最先端手法、例えばFFT特徴量に単層ニューラルネットワークを適用した手法（F1スコア83%）や、別の手法（正解率72%）よりも優れた性能を示した。
最高の個別F1スコアは、シュール（92.21%）およびナヴァ（91.84%）で達成され、これらのダストガートにおいて優れた性能を発揮した。
GRUとボトルネック層の導入により、モデルのロバスト性が向上し、GRUなしのF1スコア84.80%からGRUありの86.21%に向上した。
ドロップアウト率を段階的に増加（0.1から0.4）させ、L1/L2正則化を併用することで、過学習が軽減され、すべてのクラスにおける汎化性能が向上した。
セガート（74件のサンプル）のようなサンプル数が少ないダストガートに対しても、F1スコア84.26%という強力な性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。