Skip to main content
QUICK REVIEW

[논문 리뷰] Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation

Hu Hu, Chao-Han Huck Yang|arXiv (Cornell University)|2020. 07. 16.
Music and Audio Processing참고 문헌 11인용 수 46
한 줄 요약

이 논문은 장치 불일치를 처리하기 위해 광범위한 데이터 증강을 활용한 2단계 CNN 기반 ASC 시스템을 제안하고, Task 1b용으로 양자화 후 소형 모델을 구축하여 각각 개발 데이터에서 81.9%와 96.7%의 정확도를 달성한다.

ABSTRACT

In this technical report, we present a joint effort of four groups, namely GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification (ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks: (i) Task 1a focuses on ASC of audio signals recorded with multiple (real and simulated) devices into ten different fine-grained classes, and (ii) Task 1b concerns with classification of data into three higher-level classes using low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system leveraging upon ad-hoc score combination of two convolutional neural networks (CNNs), classifying the acoustic input according to three classes, and then ten classes, respectively. Four different CNN-based architectures are explored to implement the two-stage classifiers, and several data augmentation techniques are also investigated. For Task 1b, we leverage upon a quantization method to reduce the complexity of two of our top-accuracy three-classes CNN-based architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is attained using our best single classifier and data augmentation. An accuracy of 81.9\% is then attained by a final model fusion of our two-stage ASC classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\% with a model size smaller than 500KB. Code is available: https://github.com/MihawkHu/DCASE2020_task1.

연구 동기 및 목표

  • 장치 불일치를 극복하기 위해 세-클래스와 텐-클래스 CNN을 결합한 장치-불변의 2단계 분류기를 만들어 Task 1a에 대응.
  • 성능 저하 없이 양자화 및 모델 압축을 이용하여 Task 1b용 저복잡도 ASC 모델(≤500 KB)을 개발한다.
  • 다양한 CNN 아키텍처와 데이터 증강 전략을 평가하여 장치 간 강건성을 높인다.
  • 단일 모델 결과를 넘어 모델 앙상블이 ASC 성능을 더 향상시킨다는 것을 보여준다.

제안 방법

  • 2단계 분류: 먼저 세-클래스 분류기(실내, 실외, 교통)이고 두 번째로 텐-클래스 분류기가 있으며, 두 출력의 점수 융합으로 최종 클래스를 선택한다.
  • 평가된 다섯 가지 CNN 기반 아키텍처: FCNN, fsFCNN, fsFCNN-split, Resnet(수정된 17-레이어, 필터를 두 배로 늘리면 Resnet-d로 명명), 그리고 Mobnet(MobileNet-v2).
  • 광범위한 데이터 증강: mixup, 무작위 자르기, 스펙트럼 증강, 스펙트럼 보정, 잔향+DRC, 피치 시프트, 속도 변경, 무작위 잡음 및 오디오 혼합; 채널 혼동은 Task 1b에 한해 사용된다.
  • Task 1b: 사후 훈련 양자화(동적 범위 양자화를 8비트)로 모델 크기를 약 1/8로 줄이면서 정확도 유지; 500 KB 미만을 유지하기 위해 더 작은 모델들의 앙상블을 사용한다.
  • 특징 추출: 2048-포인트 FFT, 2048-윈도우, 1024 프레임 시프트를 갖는 로그-멜 필터 뱅크(LMFB); LMFB는 [0,1]로 스케일링되고 LMFB 델타로 증강된다; 입력 형상은 Task 1a가 423x128x3, Task 1b가 461x128x6이다.
  • 학습: 코사인 감소 재시작 학습률 스케줄을 사용하는 SGD; Task 1a 및 Task 1b에 대해 공식 학습-테스트 분할을 사용; Keras 구현; 최종 제출은 개발 데이터를 전부 사용.

실험 결과

연구 질문

  • RQ1세-클래스 예측과 정교한 텐-클래스 예측을 결합하여 2단계 CNN 기반 ASC 시스템이 Task 1a에서의 장치 불일치에 대한 강건성을 향상시킬 수 있는가?
  • RQ2다양한 CNN 아키텍처(FCNN, fsFCNN, Resnet-d, Mobnet)가 데이터 증강과 어떻게 상호 작용하여 장치로 인한 성능 저하를 완화하는가?
  • RQ3스펙트럼 증강, 스펙트럼 보정, 잔향+DRC, mixup 등을 포함한 데이터 증강 전략이 보인 장치와 미확인 장치 전반에 걸친 ASC 정확도에 미치는 영향은 무엇인가?
  • RQ4사후 훈련 양자화가 Task 1b를 위한 500 KB 미만의 ASC 모델을 최소한의 정확도 손실로 가능하게 하며, 모델 앙상블이 추가로 성능을 향상시키는가?

주요 결과

  • 여러 CNN의 2단계 융합이 Task 1a 개발 데이터에서 81.9% ASC 정확도를 달성했다(모델 중 최상의 융합).
  • FCNN 기반 앙상블이 독립 정확도 76.9%를 달성하고, FCNN과 fsFCNN 변형들을 결합하면 2단계 접근을 사용할 때 81.9%에 도달한다.
  • 잔향, DRC, 스펙트럼 증강, mixup 등을 포함한 광범위한 데이터 증강의 적용은 강건성을 크게 향상시키며, 미확인 장치(s4–s6)에서 특히 개선이 관찰된다.
  • Task 1b 결과는 Mobnet과 small-FCNN이 압축 전 각각 95.2%와 96.4% 정확도를 달성; 동적 범위 양자화로 크기가 약 1/8로 감소하되 정확도 손실은 미미하다(Mobnet: 0.4% 감소; small-FCNN: 0.1% 감소).
  • 최종 제출은 다수 모델의 앙상블을 사용하여 단일 모델 성능을 능가하며 Task 1a에서 81.9%, Task 1b 개발 데이터에서 96.7%를 달성한다.
  • Task 1a의 네 가지 최종 제출은 Resnet-d, fc 기반 네트, 그리고 주의(attention) 및 데이터 전략이 적용된 fsFCNN 변형들의 앙상블로 구성되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.