QUICK REVIEW

[논문 리뷰] Instrument-Independent Dastgah Recognition of Iranian Classical Music Using AzarNet

Shahla RezezadehAzar, Ali Ahmadi|arXiv (Cornell University)|2018. 01. 01.

Music and Audio Processing참고 문헌 21인용 수 2

한 줄 요약

이 논문은 마리암 이ран 클래식 음악(MICM) 데이터셋을 사용하여 악기 종속성 없이 이ран 클래식 음악의 다스트가흐를 인식하는 딥 컨volution 신경망인 AzarNet을 제안한다. 음성 신호를 시간-주파수 표현으로 변환하기 위해 단기 푸리에 변환(STFT)을 적용한 결과, 일곱 개의 다스트가흐를 분류하여 전반적인 F1 스코어 86.21%를 기록하였으며, 이는 이 작업에 대해 지금까지 보고된 바 중 최고의 성능이다.

ABSTRACT

In this paper, AzarNet, a deep neural network (DNN), is proposed to recognizing seven different Dastgahs of Iranian classical music in Maryam Iranian classical music (MICM) dataset. Over the last years, there has been remarkable interest in employing feature learning and DNNs which lead to decreasing the required engineering effort. DNNs have shown better performance in many classification tasks such as audio signal classification compares to shallow processing architectures. Despite image data, audio data need some preprocessing steps to extract spectra and temporal features. Some transformations like Short-Time Fourier Transform (STFT) have been used in the state of art researches to transform audio signals from time-domain to time-frequency domain to extract both temporal and spectra features. In this research, the STFT output results which are extracted features are given to AzarNet for learning and classification processes. It is worth noting that, the mentioned dataset contains music tracks composed with two instruments (violin and straw). The overall f1 score of AzarNet on test set, for average of all seven classes was 86.21% which is the best result ever reported in Dastgah classification according to our best knowledge.

연구 동기 및 목표

이란 클래식 음악의 다스트가흐를 악기 종속성 없이 분류하는 방법을 개발하기 위해.
기존의 얕은 학습 및 단일층 신경망 접근 방식보다 분류 정확도를 향상시키기 위해.
STFT로 변환된 스펙트로그램을 통해 원시 음성에서 자동으로 특징을 학습하기 위해 딥 신경망을 활용하기 위해.
새로 도입된 다양성 있는 데이터셋(MICM)을 사용하여 다스트가흐 인식의 새로운 기준을 설정하기 위해.
잔차 연결, 배치 정규화, GRU가 페르시아 클래식 음악의 스펙트럼 및 시간 패턴을 모델링하는 데 얼마나 효과적인지 입증하기 위해.

제안 방법

MICM 데이터셋의 원시 음성 신호는 단기 푸리에 변환(STFT)을 사용하여 시간-주파수 표현으로 변환된다.
수신된 스펙트로그램은 잔차 블록, 배치 정규화, 드롭아웃 레이어를 포함한 딥 컨volution 신경망인 AzarNet에 입력된다.
네트워크 아키텍처는 커널 크기가 3×3인 2D 컨볼루션 레이어 5개로 구성되며, 이후 최대 풀링과 배치 정규화를 거치고, 활성화 함수로 ReLU와 누출 ReLU(α=0.1)를 사용한다.
최종 컨볼루션 블록 이후에 GRU 레이어를 적용하여 스펙트로그램 특징의 순차적 의존성을 모델링한다.
과적합을 방지하기 위해 L2 및 L1 정규화(0.01의 펜alties를 가진 LAD+LSE로 조합)가 컨볼루션 레이어와 GRU 레이어 양쪽에 적용된다.
최종 분류기는 다중 클래스 다스트가흐 분류를 위해 소프트맥스 활성화 함수를 사용하는 두 개의 완전 연결 레이어로 구성된다.

실험 결과

연구 질문

RQ1딥 신경망이 악기 특징에 의존하지 않고도 높은 정확도의 다스트가흐 인식을 달성할 수 있는가?
RQ2STFT로 변환된 스펙트로그램과 딥 컨볼루션 신경망을 조합하면 원시 음성 또는 FFT 기반 방법보다 분류 성능이 향상되는가?
RQ3잔차 연결, 배치 정규화, GRU는 페르시아 클래식 음악의 스펙트럼 및 시간 패턴을 모델링하는 데 얼마나 효과적인가?
RQ4새로 도입된 악기 다양성이 있는 데이터셋을 사용할 때 DNN 기반 접근 방식의 다스트가흐 분류 성능은 어떠한가?
RQ5제안된 방법이 단일층 신경망과 같은 간단한 아키텍처를 사용한 기존 최신 기술 수준의 모델을 능가할 수 있는가?

주요 결과

AzarNet은 MICM 테스트 세트에서 전반적인 F1 스코어 86.21%를 기록하였으며, 이는 일곱 종류의 다스트가흐 분류에 대해 지금까지 보고된 바 중 최고의 성능이다.
이전의 최신 기술 수준의 방법들, 즉 FFT 특징에 기반한 단일층 신경망(83% F1 스코어)과 다른 모델(72% 정확도)을 모두 능가하였다.
가장 높은 개별 F1 스코어는 Shour(92.21%)와 Nava(91.84%)에서 기록되었으며, 이는 이 다스트가흐들에 대해 강력한 성능을 보임을 시사한다.
GRU와 버티컬 블록의 포함으로 인해 모델의 강건성이 향상되었으며, GRU 없이 84.80%였던 F1 스코어가 GRU를 포함한 경우 86.21%로 상승하였다.
점차 증가하는 드롭아웃 비율(0.1에서 0.4로)과 함께 L1/L2 정규화를 적용함으로써 과적합이 감소하고 모든 클래스에 걸쳐 일반화 성능이 향상되었다.
Segah(74개 샘플)와 같이 샘플 수가 적은 다스트가흐에서도 강력한 성능을 보였으며, F1 스코어 84.26%를 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.