QUICK REVIEW

[논문 리뷰] Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation

Hu Hu, Chao-Han Huck Yang|arXiv (Cornell University)|2020. 07. 16.

Music and Audio Processing참고 문헌 11인용 수 46

한 줄 요약

이 논문은 장치 불일치를 처리하기 위해 광범위한 데이터 증강을 활용한 2단계 CNN 기반 ASC 시스템을 제안하고, Task 1b용으로 양자화 후 소형 모델을 구축하여 각각 개발 데이터에서 81.9%와 96.7%의 정확도를 달성한다.

ABSTRACT

In this technical report, we present a joint effort of four groups, namely GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification (ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks: (i) Task 1a focuses on ASC of audio signals recorded with multiple (real and simulated) devices into ten different fine-grained classes, and (ii) Task 1b concerns with classification of data into three higher-level classes using low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system leveraging upon ad-hoc score combination of two convolutional neural networks (CNNs), classifying the acoustic input according to three classes, and then ten classes, respectively. Four different CNN-based architectures are explored to implement the two-stage classifiers, and several data augmentation techniques are also investigated. For Task 1b, we leverage upon a quantization method to reduce the complexity of two of our top-accuracy three-classes CNN-based architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is attained using our best single classifier and data augmentation. An accuracy of 81.9\% is then attained by a final model fusion of our two-stage ASC classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\% with a model size smaller than 500KB. Code is available: https://github.com/MihawkHu/DCASE2020_task1.

연구 동기 및 목표

장치 불일치를 극복하기 위해 세-클래스와 텐-클래스 CNN을 결합한 장치-불변의 2단계 분류기를 만들어 Task 1a에 대응.
성능 저하 없이 양자화 및 모델 압축을 이용하여 Task 1b용 저복잡도 ASC 모델(≤500 KB)을 개발한다.
다양한 CNN 아키텍처와 데이터 증강 전략을 평가하여 장치 간 강건성을 높인다.
단일 모델 결과를 넘어 모델 앙상블이 ASC 성능을 더 향상시킨다는 것을 보여준다.

제안 방법

2단계 분류: 먼저 세-클래스 분류기(실내, 실외, 교통)이고 두 번째로 텐-클래스 분류기가 있으며, 두 출력의 점수 융합으로 최종 클래스를 선택한다.
평가된 다섯 가지 CNN 기반 아키텍처: FCNN, fsFCNN, fsFCNN-split, Resnet(수정된 17-레이어, 필터를 두 배로 늘리면 Resnet-d로 명명), 그리고 Mobnet(MobileNet-v2).
광범위한 데이터 증강: mixup, 무작위 자르기, 스펙트럼 증강, 스펙트럼 보정, 잔향+DRC, 피치 시프트, 속도 변경, 무작위 잡음 및 오디오 혼합; 채널 혼동은 Task 1b에 한해 사용된다.
Task 1b: 사후 훈련 양자화(동적 범위 양자화를 8비트)로 모델 크기를 약 1/8로 줄이면서 정확도 유지; 500 KB 미만을 유지하기 위해 더 작은 모델들의 앙상블을 사용한다.
특징 추출: 2048-포인트 FFT, 2048-윈도우, 1024 프레임 시프트를 갖는 로그-멜 필터 뱅크(LMFB); LMFB는 [0,1]로 스케일링되고 LMFB 델타로 증강된다; 입력 형상은 Task 1a가 423x128x3, Task 1b가 461x128x6이다.
학습: 코사인 감소 재시작 학습률 스케줄을 사용하는 SGD; Task 1a 및 Task 1b에 대해 공식 학습-테스트 분할을 사용; Keras 구현; 최종 제출은 개발 데이터를 전부 사용.

실험 결과

연구 질문

RQ1세-클래스 예측과 정교한 텐-클래스 예측을 결합하여 2단계 CNN 기반 ASC 시스템이 Task 1a에서의 장치 불일치에 대한 강건성을 향상시킬 수 있는가?
RQ2다양한 CNN 아키텍처(FCNN, fsFCNN, Resnet-d, Mobnet)가 데이터 증강과 어떻게 상호 작용하여 장치로 인한 성능 저하를 완화하는가?
RQ3스펙트럼 증강, 스펙트럼 보정, 잔향+DRC, mixup 등을 포함한 데이터 증강 전략이 보인 장치와 미확인 장치 전반에 걸친 ASC 정확도에 미치는 영향은 무엇인가?
RQ4사후 훈련 양자화가 Task 1b를 위한 500 KB 미만의 ASC 모델을 최소한의 정확도 손실로 가능하게 하며, 모델 앙상블이 추가로 성능을 향상시키는가?

주요 결과

여러 CNN의 2단계 융합이 Task 1a 개발 데이터에서 81.9% ASC 정확도를 달성했다(모델 중 최상의 융합).
FCNN 기반 앙상블이 독립 정확도 76.9%를 달성하고, FCNN과 fsFCNN 변형들을 결합하면 2단계 접근을 사용할 때 81.9%에 도달한다.
잔향, DRC, 스펙트럼 증강, mixup 등을 포함한 광범위한 데이터 증강의 적용은 강건성을 크게 향상시키며, 미확인 장치(s4–s6)에서 특히 개선이 관찰된다.
Task 1b 결과는 Mobnet과 small-FCNN이 압축 전 각각 95.2%와 96.4% 정확도를 달성; 동적 범위 양자화로 크기가 약 1/8로 감소하되 정확도 손실은 미미하다(Mobnet: 0.4% 감소; small-FCNN: 0.1% 감소).
최종 제출은 다수 모델의 앙상블을 사용하여 단일 모델 성능을 능가하며 Task 1a에서 81.9%, Task 1b 개발 데이터에서 96.7%를 달성한다.
Task 1a의 네 가지 최종 제출은 Resnet-d, fc 기반 네트, 그리고 주의(attention) 및 데이터 전략이 적용된 fsFCNN 변형들의 앙상블로 구성되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.