QUICK REVIEW

[논문 리뷰] Rethinking CNN Models for Audio Classification

Kamalesh Palanisamy, Dipika Singhania|arXiv (Cornell University)|2020. 07. 22.

Music and Audio Processing참고 문헌 62인용 수 108

한 줄 요약

논문은 Mel-스펙트로그램에 대해 ImageNet으로 사전학습된 CNN들이 DenseNet, ResNet, Inception을 파인튜닝하여 ESC-50과 UrbanSound8K에서 최첨단의 성능을 달성하고 GTZAN에서 경쟁력 있는 결과를 보이며, 앙상블이 로버스트니스를 향상시킨다.

ABSTRACT

In this paper, we show that ImageNet-Pretrained standard deep CNN models can be used as strong baseline networks for audio classification. Even though there is a significant difference between audio Spectrogram and standard ImageNet image samples, transfer learning assumptions still hold firmly. To understand what enables the ImageNet pretrained models to learn useful audio representations, we systematically study how much of pretrained weights is useful for learning spectrograms. We show (1) that for a given standard model using pretrained weights is better than using randomly initialized weights (2) qualitative results of what the CNNs learn from the spectrograms by visualizing the gradients. Besides, we show that even though we use the pretrained model weights for initialization, there is variance in performance in various output runs of the same model. This variance in performance is due to the random initialization of linear classification layer and random mini-batch orderings in multiple runs. This brings significant diversity to build stronger ensemble models with an overall improvement in accuracy. An ensemble of ImageNet pretrained DenseNet achieves 92.89% validation accuracy on the ESC-50 dataset and 87.42% validation accuracy on the UrbanSound8K dataset which is the current state-of-the-art on both of these datasets.

연구 동기 및 목표

ImageNet으로 사전학습된 CNN이 멜-스펙트로그램 입력을 사용한 오디오 분류에서 강력한 기준선으로 작용할 수 있음을 보여주다.
여러 데이터셋에서 사전학습 가중치와 임의 초기화의 이점을 정량화하다.
파인튜닝 중에 사전학습 가중치가 어떻게 변하는지 분석하고 오디오 작업에서 어떤 네트워크 부분이 가장 중요한지 확인하다.
그래디언트 기반 시각화를 통해 CNN이 스펙트로그램으로부터 무엇을 학습하는지에 대한 정성적 통찰을 제공하다.
깊은 앙상블이 데이터셋 전반에 더 높은 정확도와 강건성을 제공함을 보여주다.

제안 방법

오디오 데이터셋에서 얻은 멜-스펙트로그램 입력에 대해 파인튜닝된 ImageNet-사전학습 DenseNet-201, ResNet, Inception 모델을 사용하다.
멜-스펙트로그램을 세 채널 입력으로 변환(단일 스펙트로그램을 복제하거나 다중 창 채널 접근 방식 중 하나)하고 일반적 증강(시간 늘리기, 피치 시프트)을 적용하다.
조정된 하이퍼파라미터로 ESC-50, UrbanSound8K, GTZAN에서 모델을 학습시키다(Adam, lr=1e-4, weight decay 1e-3).
단일 모델과 앙상블(M=5)을 평가하고 소프트맥스 출력의 평균으로 앙상블의 성능 향상을 평가하다.
가중치 변화, 부분 가중치 융합/동결, 모델 컷오프를 포함한 전이학습 분석을 수행하여 사전학습 지식이 가장 잘 도움이 되는 지점을 식별하다.

실험 결과

연구 질문

RQ1Mel-스펙트로그램에서 파인튜닝된 ImageNet-사전학습 CNN이 일반적으로 오디오 분류 데이터셋에서 처음부터 학습하는 것보다 더 잘 수행합니까?
RQ2파인튜닝 후 사전학습 네트워크의 어떤 부분이 유용한 오디오 표현을 유지하는지, 동결이나 부분적 전이 가중치가 성능에 어떤 영향을 미칩니까?
RQ3ImageNet으로부터의 전이학습을 사용하여 간단한 멜-스펙트로그램 입력과 표준 CNN 백본으로 ESC-50과 UrbanSound8K에서 최첨단 결과를 달성할 수 있습니까?
RQ4여러 파인튜닝된 사전학습 모델의 앙상블이 데이터셋 전반에 걸쳐 강건한 이득을 제공합니다?
RQ5그래디언트 기반 시각화가 CNN이 스펙트로그램 입력을 어떻게 해석하는지에 대해 무엇을 보여줍니까?

주요 결과

모델	GTZAN (사전학습)	GTZAN (랜덤)	ESC-50 (사전학습)	ESC-50 (랜덤)	UrbanSound8K (사전학습)	UrbanSound8K (랜덤)
DenseNet	91.39% ±0.37	88.50%	91.16% ±0.36	92.89%	85.14% ±0.17	87.42%
ResNet	91.09% ±0.86	87.90%	90.65% ±0.28	92.64%	84.76% ±0.33	87.35%
Inception	90.00% ±0.70	86.30%	87.34% ±0.74	89.70%	84.37% ±0.50	86.34%

사전학습 가중치는 ESC-50, UrbanSound8K, GTZAN 전반에서 임의 초기화에 비해 일관되게 성능을 향상시킨다(예: ESC-50에서 약 20%, UrbanSound8K에서 약 10%, GTZAN에서 3% 이상).
ImageNet-사전학습 DenseNet 앙상블은 ESC-50에서 92.89%, UrbanSound8K에서 87.42%를 달성한다(당시 최첨단).
Block3(중간 단계)는 ImageNet에서 오디오로의 지식 이전에 결정적이다; 이 영역을 동결하거나 제거하면 성능이 크게 저하된다.
통합 기울기 시각화는 모델이 스펙트로그램의 고에너지 영역에 주목함을 보여주며, 소리 이벤트 주변의 경계와 같은 에지 유사한 특징을 학습했음을 나타낸다.
가중치 변화 분석(SVCCA)은 초기 레이어가 파인튜닝 후에도 대부분의 사전학습 특징을 유지하는 반면, 중간 레이어는 더 많은 작업 특화 적응을 겪는다고 나타낸다.
다섯 개의 독립적으로 학습된 모델을 앙상블하면 ESC-50과 UrbanSound8K에서 약 +2% 절대 이득이 나오고(GTZAN에서 약간의 변동).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.