[논문 리뷰] Music Genre Classification using Machine Learning Techniques
본 논문은 CNN 기반 스펙트로그램 분류와 음악 장르 분류를 위해 AudioSet에서 비교하고, VGG-16 전이 학습과 XGBoost의 앙상블이 최고 AUC 0.894를 달성한다.
Categorizing music files according to their genre is a challenging task in the area of music information retrieval (MIR). In this study, we compare the performance of two classes of models. The first is a deep learning approach wherein a CNN model is trained end-to-end, to predict the genre label of an audio signal, solely using its spectrogram. The second approach utilizes hand-crafted features, both from the time domain and the frequency domain. We train four traditional machine learning classifiers with these features and compare their performance. The features that contribute the most towards this multi-class classification task are identified. The experiments are conducted on the Audio set data set and we report an AUC value of 0.894 for an ensemble classifier which combines the two proposed approaches.
연구 동기 및 목표
- 대형 라이브러리와 스트리밍 서비스용 자동 음악 장르 태깅을 촉진한다.
- 스펙트로그램을 사용한 엔드투엔드 CNN 접근법과 전통적인 특징 기반 분류기를 비교한다.
- 장르 분류에 기여하는 어떤 특징이 가장 중요한지 식별한다.
- AudioSet 데이터셋에서 성능을 평가하고 특징 중요도를 분석한다.
제안 방법
- 오디오를 MEL 스펙트로그램으로 변환하고 전이 학습 또는 미세 조정을 사용하는 VGG-16 기반 CNN에 입력한다.
- Librosa를 사용하여 시간 도메인 및 주파수 도메인 손으로 만든 특징을 추출하고 전통적인 분류기(LR, RF, SVM, XGB)를 학습시킨다.
- 평탄화된 스펙트로그램에 대해 기본 피드포워드 네트워크를 학습시킨다.
- 과적합을 완화하기 위해 L2 정규화와 드롭아웃으로 신경망을 정규화한다.
- 모델을 정확도, F-스코어, AUC로 평가하고 train/validation/test를 90/5/5 비율로 분할한다.
- 예측 확률을 평균내어 최상의 CNN(VGG-16 TL)과 최상의 특징 기반 모델(XGB)을 앙상블한다.
실험 결과
연구 질문
- RQ1스펙트로그램 기반 CNN이 전통적인 특징 기반 분류기보다 더 높은 장르 분류 성능을 달성할 수 있는가?
- RQ2수작업 특징 중 어떤 것이 음악 장르 분류 성능에 가장 크게 기여하는가?
- RQ3CNN 기반 모델과 특징 기반 모델의 앙상블이 AudioSet에서 전체 성능을 향상시키는가?
주요 결과
| 모델 | 정확도 | F-스코어 | AUC |
|---|---|---|---|
| VGG-16 CNN Transfer Learning | 0.63 | 0.61 | 0.891 |
| VGG-16 CNN Fine Tuning | 0.64 | 0.61 | 0.889 |
| Feed-forward NN baseline | 0.43 | 0.33 | 0.759 |
| Logistic Regression (LR) | 0.53 | 0.47 | 0.822 |
| Random Forest (RF) | 0.54 | 0.48 | 0.840 |
| Support Vector Machines (SVM) | 0.57 | 0.52 | 0.856 |
| Extreme Gradient Boosting (XGB) | 0.59 | 0.55 | 0.865 |
| VGG-16 CNN + XGB Ensemble | 0.65 | 0.62 | 0.894 |
- 스펙트로그램만을 사용한 VGG-16 CNN이 단일 모델 중 최고 지표를 달성했다(정확도 0.63, F-스코어 0.61, AUC 0.891 for transfer learning; 0.64, 0.61, 0.889 for fine-tuning).
- 특징 기반 모델 중 SVM(0.57/0.52/0.856)과 XGB(0.59/0.55/0.865)가 LR와 RF보다 우수하다.
- VGG-16 CNN과 XGBoost의 앙상블이 전체 AUC 0.894, 정확도 0.65, F-스코어 0.62로 최고를 달성한다.
- MFCCs는 상위 특징 중 하나이며 스펙트럴 콘트라스트 평균/표준편차와 템포도 중요하다.
- 상위 10, 20, 30, 97개의 특징을 사용한 경우도 성능 차이가 크지 않으며 30개 특징에서 (AUC 0.845, 정확도 0.55)이 전체 특징 세트(AUC 0.865, 정확도 0.59)에 근접한다.
- 주파수 도메인 특징이 이 작업에 대해 시간 도메인 특징보다 더 우수하며 두 가지를 결합하는 것이 최상의 결과를 제공한다( AUC 0.865, 정확도 0.59 ).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.