Skip to main content
QUICK REVIEW

[논문 리뷰] Integrating the Data Augmentation Scheme with Various Classifiers for Acoustic Scene Modeling

Hangting Chen, Zuozhen Liu|arXiv (Cornell University)|2019. 07. 15.
Music and Audio Processing참고 문헌 12인용 수 67
한 줄 요약

이 논문은 GAN 기반 방법(ACGAN 및 CVAE/ACGAN)을 이용한 데이터 증강 프레임워크를 다수의 ASC 분류기(FBank-FCNN, Scalogram-DCNN, 혼합형)와 앙상블 보팅과 통합하여 DCASE2019 Task1A fold-1에서 85% 이상 정확도를 달성한다.

ABSTRACT

This technical report describes the IOA team's submission for TASK1A of DCASE2019 challenge. Our acoustic scene classification (ASC) system adopts a data augmentation scheme employing generative adversary networks. Two major classifiers, 1D deep convolutional neural network integrated with scalogram features and 2D fully convolutional neural network integrated with Mel filter bank features, are deployed in the scheme. Other approaches, such as adversary city adaptation, temporal module based on discrete cosine transform and hybrid architectures, have been developed for further fusion. The results of our experiments indicates that the final fusion systems A-D could achieve an accuracy higher than 85% on the officially provided fold 1 evaluation dataset.

연구 동기 및 목표

  • 도메인 시프트(예: 보이지 않는 도시)에서 강력한 음향 현장 분류(ASC)를 위한 데이터 증강.
  • 다양한 특징 표현(멜 필터 뱅크, 스칼로그램) 및 아키텍처(1D DCNN, 2D FCNN, Inception 기반 하이브리드)를 사용한 ASC 분류기 개발 및 비교.
  • 융합/앙상블 전략을 시연하여 최종 ASC 성능 향상.
  • 보조 GAN 기반 증강(ACGAN, CVAE/ACGAN) 및 적대적 도메인 적응이 ASC 성능에 미치는 영향 평가

제안 방법

  • ACGAN 및 CVAE/ACGAN 데이터 증강을 사용해 장면 라벨이 있는 합성 음향 특징 맵 생성.
  • 주요 분류기 두 가지: (i) FBank-FCNN(10-class) 및 (ii) Scalogram-DCNN(10-class); 증강 여부와 무관하게 학습.
  • 추가 분류기 도입: DCT 기반 시간 모듈, Adversarial City Adaptation, 하이브 인ception 기반 네트워크(IncepLSTM/IncepGRU)로 모델 융합 가능성 확보.
  • 다수의 분류기를 결합하기 위한 앙상블 전략(평균 및 가중 보팅) 탐색.
  • fold-1 DCASE2019 설정에서 학습 및 평가; 검증 분할을 이용한 조기 중지 및 하이퍼파라미터 튜닝; 제출을 위한 전체 개발 데이터에 대해 최상의 시스템 재학습

실험 결과

연구 질문

  • RQ1GAN 기반 증강(ACGAN, CVAE/ACGAN)이 특징 표현(FBank 대 scalogram) 및 아키텍처에 따라 ASC 성능에 미치는 영향은?
  • RQ2대상 도메인/도시에 대한 일반화에 Adversarial City Adaptation 및 DCT 기반 시간 모듈의 영향은?
  • RQ3다양한 ASC 모델의 평균/가중 보팅을 통한 앙상블이 단일 모델 성능을 넘을 수 있는가, 차이는 얼마나?
  • RQ4어떤 특징 조합, 증강 방식, 분류기 아키텍처가 DCASE2019 Task1A fold-1에서 가장 높은 정확도를 낳는가?

주요 결과

  • ACGAN 또는 CVAE/ACGAN으로 데이터 증강은 특징 유형과 분류기 전반에서 ASC 정확도를 향상시킴(약 0.5–4% 증가 관찰).
  • Scalogram 기반 특징은 ave-diff 채널이 일반적으로 left-right 채널보다 약 3–5% 우수.
  • 최고의 단일 시스템은 scalogram-aveDiff와 CVAE/ACGAN-DCNN으로 최대 84.28%까지 도달; CVAE/ACGAN이 일부 설정에서 ACGAN보다 우수할 수 있음.
  • 하이브리드 및 적대적 접근은 보완 이득을 주지만 모든 개선을 합쳐도 항상 성능이 향상되지는 않음; DCT는 일부 구성에서 도움이 될 수 있음.
  • 융합 시스템은 fold-1 평가에서 최종 정확도 85.07%–85.28%를 달성하며 적절한 가중치와 평균화로 85%를 넘김.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.