QUICK REVIEW

[논문 리뷰] CNN based music emotion classification

Xin Liu, Qingcai Chen|arXiv (Cornell University)|2017. 04. 19.

Music and Audio Processing참고 문헌 8인용 수 34

한 줄 요약

이 논문은 원시 오디오 스펙트로그램을 직접 입력으로 사용하는 CNN 기반 음악 정서 인식 모델을 제안한다. 수동적인 음향 특징 공학의 필요성을 제거한다. 시간과 주파수 영역의 공간적 및 시간적 패턴을 컨volutional 레이어를 통해 활용함으로써, CAL500 및 CAL500exp 데이터셋에서 최신 기술 수준의 성능을 달성하며, 각각 0.709 및 0.735의 마이크로 F1 스코어를 기록한다.

ABSTRACT

Music emotion recognition (MER) is usually regarded as a multi-label tagging task, and each segment of music can inspire specific emotion tags. Most researchers extract acoustic features from music and explore the relations between these features and their corresponding emotion tags. Considering the inconsistency of emotions inspired by the same music segment for human beings, seeking for the key acoustic features that really affect on emotions is really a challenging task. In this paper, we propose a novel MER method by using deep convolutional neural network (CNN) on the music spectrograms that contains both the original time and frequency domain information. By the proposed method, no additional effort on extracting specific features required, which is left to the training procedure of the CNN model. Experiments are conducted on the standard CAL500 and CAL500exp dataset. Results show that, for both datasets, the proposed method outperforms state-of-the-art methods.

연구 동기 및 목표

같은 음악 세그먼트에 대해 인간의 정서 반응이 일관되지 않은 문제를 해결하기 위해 수동으로 선택된 음향 특징에 의존하지 않도록 하기 위해.
딥 컨volution 네트워크가 원시 스펙트로그램에서 분류 가능한 특징을 자동으로 학습할 수 있는지 탐색하기 위해.
엔드 투 엔드 딥 러닝 접근법을 통해 다중 레이블 음악 정서 인식 분야에서 최신 기술 수준의 성능을 향상시키기 위해.
스펙트로그램 기반 CNN의 효과성을 표준 벤치마크 데이터셋 CAL500 및 CAL500exp에서 검증하기 위해.

제안 방법

모델은 짧은 시간 푸리에 변환을 통해 계산된 원시 스펙트로그램을 입력으로 사용하여 시간 및 주파수 도메인 정보를 유지한다.
다중 컨볼루션 및 풀링 레이어를 갖춘 깊은 CNN 아키텍처가 스펙트로그램에서 계층적인 공간-시간 특징을 추출한다.
변동 길이의 음악 세그먼트를 처리하기 위해 시간 및 주파수 축을 따라 局부적 컨볼루션 연산을 사용한다.
최종 레이어에 소프트맥스 분류기가 배치되어 다중 레이블 정서 예측을 출력한다.
F1 스코어 최적화를 위해 교차 엔트로피 손실과 함께 확률적 경사 하강법을 사용하여 엔드 투 엔드로 모델을 훈련시킨다.
필터 크기, 스트라이드, 학습률 등의 하이퍼파ram터는 검증 세트에서 10겹 교차 검증을 통해 튜닝된다.

실험 결과

연구 질문

RQ1스펙트로그램에 직접 훈련된 CNN 모델이 기존의 수동적인 음향 특징에 의존하는 방법보다 음악 정서 인식에서 성능이 뛰어나지 않는가?
RQ2기존의 특징 공학 기법과 비교했을 때 원시 스펙트로그램 사용이 정서 분류 성능에 어떤 영향을 미치는가?
RQ3네트워크 아키텍처 및 훈련 전략이 표준 데이터셋에서 다중 레이블 정서 인식 성능에 어떤 영향을 미치는가?
RQ4왜 모델은 CAL500exp에서 CAL500보다 더 잘 작동하는가? 이러한 차이를 초래하는 요인는 무엇인가?

주요 결과

CAL500exp 데이터셋에서 제안된 CNN 모델은 마이크로 F1 스코어 0.735를 기록하여 이전의 최신 기술 수준 방법을 능가한다.
CAL500 데이터셋에서 모델은 마이크로 F1 스코어 0.640을 기록하여 기존 접근법보다 일관된 향상을 보여준다.
모델은 CAL500exp에서 마크로 F1 스코어 0.596, CAL500에서 0.472를 기록하여 모든 정서 카테고리에서 강력한 성능을 보인다.
모델은 CAL500exp에서 헤밍 손실을 0.212로 줄였고, CAL500에서는 0.325로 유지하여 레이블 예측 일관성 향상을 보였다.
AUC 스코어는 CAL500exp에서 0.799, CAL500에서 0.675를 기록하여 분류 능력 향상을 확인했다.
CAL500와 CAL500exp 간의 성능 격차는 CAL500의 훈련 세트 크기가 작고, 레이블이 모호하기 때문으로 기인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.