Skip to main content
QUICK REVIEW

[논문 리뷰] Comparison of Time-Frequency Representations for Environmental Sound Classification using Convolutional Neural Networks

Muhammad Huzaifah|arXiv (Cornell University)|2017. 06. 22.
Music and Audio Processing참고 문헌 18인용 수 122
한 줄 요약

이 논문은 CNN 기반 환경 소리 분류를 위해 STFT(선형 및 Mel), CQT, CWT, MFCC 기반 입력을 ESC-50 및 UrbanSound8K에서 비교하여 Mel-STFT가 일반적으로 강력하고 MFCC는 가장 약하며, 2D 합성곱이 종종 1D를 능가하고 윈도우 크기가 신호 클래스에 따라 결과에 영향을 준다

ABSTRACT

Recent successful applications of convolutional neural networks (CNNs) to audio classification and speech recognition have motivated the search for better input representations for more efficient training. Visual displays of an audio signal, through various time-frequency representations such as spectrograms offer a rich representation of the temporal and spectral structure of the original signal. In this letter, we compare various popular signal processing methods to obtain this representation, such as short-time Fourier transform (STFT) with linear and Mel scales, constant-Q transform (CQT) and continuous Wavelet transform (CWT), and assess their impact on the classification performance of two environmental sound datasets using CNNs. This study supports the hypothesis that time-frequency representations are valuable in learning useful features for sound classification. Moreover, the actual transformation used is shown to impact the classification accuracy, with Mel-scaled STFT outperforming the other discussed methods slightly and baseline MFCC features to a large degree. Additionally, we observe that the optimal window size during transformation is dependent on the characteristics of the audio signal and architecturally, 2D convolution yielded better results in most cases compared to 1D.

연구 동기 및 목표

  • CNN 기반 환경 소리 분류를 위한 효과적인 시간-주파수 입력 표현 검색의 동기를 부여한다.
  • 두 공용 데이터세트에서 서로 다른 스펙트로-시간 표현이 CNN 성능에 미치는 영향을 평가한다.
  • 네트워크 아키텍처(2D 대 1D 합성곱)와 입력 윈도우링이 분류 정확도에 미치는 영향을 평가한다.

제안 방법

  • 4초 클립을 22.05 kHz로 재샘플링하여 선형-STFT, Mel-STFT, CQT, CWT, MFCC cepstrogram 등 여러 시간-주파수 표현을 계산한다.
  • 입력을 2D 스펙트로그램 유사 이미지로 준비하고 표준화된 크기로 다운스케일한다.
  • ReLU, 드롭아웃, L2 정규화, Adam 최적화를 사용하는 Conv-5 및 Conv-3(3x3 및 Mx3 필터) CNN 변형을 학습한다.
  • ESC-50에서 5-fold 교차검증, UrbanSound8K에서 10-fold 교차검증으로 평가하고 중앙값 정확도 및 MAD를 보고한다.
  • 2D 대 1D 합성곱을 비교하고 윈도우 크기의 효과(광대역 대 협대역)를 분석한다.
  • 대표 간 차이가 있는지 확인하기 위해 ANOVA 및 Tukey 사후 검정을 사용한다.

실험 결과

연구 질문

  • RQ1ESC-50과 UrbanSound8K에서 어떤 시간-주파수 표현이 CNN 기반 환경 소리 분류 성능을 최적으로 보이는가?
  • RQ2광대역 대 협대역 윈도잉이 표현 간 정확도에 어떻게 영향을 미치는가?
  • RQ3스펙트로그램 기반 입력에 대해 2D 합성곱이 1D 합성곱보다 우수한가?
  • RQ4CNN을 사용할 때 MFCC 기반 입력이 현대의 스펙트로그램 기반 표현에 비해 여전히 경쟁력이 있는가?
  • RQ5다양한 입력에 대해 네트워크 깊이(Conv-3 대 Conv-5)가 성능에 미치는 상대적 영향은 무엇인가?

주요 결과

  • Mel-STFT 스펙트로그램 입력은 모델 및 데이터세트 전반에서 일관되게 우수한 성능을 보였다.
  • 대부분의 스펙트럴 표현은 MFCC 기준보다 성능이 향상되었고, MFCC는 많은 경우에서 유의하게 뒤처졌다.
  • 2D 합성곱이 일반적으로 1D 합성곱보다 우수했으며, 얕은 ESC-50 모델에서 예외가 있었다.
  • 광대역 대 협대역의 효과는 데이터세트와 클래스에 따라 다르게 나타나 윈도우 크기 우위가 클래스 의존적임을 시사한다.
  • Conv-3(3x3)가 Conv-5보다 자주 더 우수한 성능을 보였으며, 주어진 클립에서 더 깊은 아키텍처가 과적합 및 데이터 제한으로 어려움을 겪었음을 시사한다.
  • UrbanSound8K에서 Conv-5 또는 Conv-3와 특정 입력 조합으로 가장 높은 정확도에 도달한 구성이 있었다(예: UrbanSound8K에서 Conv-3 및 3x3이 중앙값 74.66%에 도달).
  • CWT는 MFCC에 더 근접하게 성능을 보이는 경향이 있었고, Mel-STFT 및 CQT보다 때때로 낮은 경우가 있어 UrbanSound8K에서 특히 차이가 두드러졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.