Skip to main content
QUICK REVIEW

[논문 리뷰] A Four-Stage Data Augmentation Approach to ResNet-Conformer Based Acoustic Modeling for Sound Event Localization and Detection

Qing Wang, Jun Du|arXiv (Cornell University)|2021. 01. 08.
Speech and Audio Processing참고 문헌 61인용 수 24
한 줄 요약

이 논문은 사운드 이벤트 로컬라이제이션 및 디텍션(SELD) 성능을 향상시키기 위해 음성 채널 스위칭, 다중 채널 시뮬레이션, 시간 도메인 혼합, 시간-주파수 마스킹을 조합한 네 단계의 데이터 증강 방법과 ResNet-Conformer 아키텍처를 제안한다. 이 방법은 모델의 일반화 능력과 성능을 크게 향상시켜 DCASE 2020 및 2022 SELD 챌린지에서 각각 SELD 점수를 0.40에서 0.17 및 0.28로 감소시켜 우승을 차지했다.

ABSTRACT

In this paper, we propose a novel four-stage data augmentation approach to ResNet-Conformer based acoustic modeling for sound event localization and detection (SELD). First, we explore two spatial augmentation techniques, namely audio channel swapping (ACS) and multi-channel simulation (MCS), to deal with data sparsity in SELD. ACS and MDS focus on augmenting the limited training data with expanding direction of arrival (DOA) representations such that the acoustic models trained with the augmented data are robust to localization variations of acoustic sources. Next, time-domain mixing (TDM) and time-frequency masking (TFM) are also investigated to deal with overlapping sound events and data diversity. Finally, ACS, MCS, TDM and TFM are combined in a step-by-step manner to form an effective four-stage data augmentation scheme. Tested on the Detection and Classification of Acoustic Scenes and Events (DCASE) 2020 data set, our proposed augmentation approach greatly improves the system performance, ranking our submitted system in the first place in the SELD task of the DCASE 2020 Challenge. Furthermore, we employ a ResNet-Conformer architecture to model both global and local context dependencies of an audio sequence and win the first place in the DCASE 2022 SELD evaluations.

연구 동기 및 목표

  • 깊이 학습 기반 사운드 이벤트 로컬라이제이션 및 디텍션(SELD)에서 데이터 부족과 과적합 문제를 데이터 증강 기법을 통해 해결하기 위해.
  • 겹침 소리 이벤트의 방향성 및 시간적 변동성에 대한 강건성을 공간적 및 시간적 증강을 통해 향상시키기 위해.
  • 국소적 및 전역적 음성 컨텍스트를 모두 포착하는 하이브리드 음향 모델을 개발하여 SELD 성능을 향상시키기 위해.
  • DCASE 2020 및 2022 SELD 벤치마크 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하기 위해.

제안 방법

  • 스테레오 녹음에서 마이크 채널을 무작위로 교환함으로써 도래 방향(DOA) 표현을 증강하는 음성 채널 스위칭(ACS)을 도입한다.
  • 고립된 소리 이벤트를 위한 현실적인 다중 채널 음성 신호를 시뮬레이션하여 DOA 다양성을 증가시키는 다중 채널 시뮬레이션(MCS)을 제안한다.
  • 신호 대 잡음비가 다양한 음성 세그먼트를 혼합함으로써 시간 도메인 혼합(TDM)을 적용하여 겹침 소리 이벤트를 시뮬레이션한다.
  • 스펙트럼 변동성을 증가시키고 잡음 및 겹침 이벤트에 대한 강건성을 향상시키기 위해 시간-주파수 마스킹(TFM)을 활용한다.
  • 네 가지 증강 단계를 단계별로 통합하여 훈련 데이터의 다양성을 점진적으로 증가시키는 파이프라인을 구성한다.
  • 음성 시퀀스의 국소적 및 장거리 의존성을 모두 모델링할 수 있도록 컨볼루션 레이어와 자기주의 기반 메커니즘을 통합한 ResNet-Conformer 아키텍처를 사용한다.

실험 결과

연구 질문

  • RQ1어떻게 데이터 증강 기법이 훈련 데이터가 제한된 저자원 SELD 환경에서 일반화 능력을 향상시킬 수 있는가?
  • RQ2ACS 및 MCS와 같은 공간 증강 방법이 SELD 시스템에서 DOA 추정의 강건성에 어느 정도 기여하는가?
  • RQ3하이브리드 ResNet-Conformer 아키텍처가 SELD에 있어 국소적 및 전역적 음성 컨텍스트를 모두 포착하는 데 기존 모델보다 뛰어난 성능을 보일 수 있는가?
  • RQ4단일 또는 무작위 증강 대비 단계적·다단계 데이터 증강 전략이 SELD 성능에 어떤 영향을 미치는가?
  • RQ5공간적, 시간적, 스펙트럼적 증강을 병합함으로써 겹침 소리 이벤트의 디텍션 및 로컬라이제이션에 어떤 영향을 미치는가?

주요 결과

  • 네 단계의 데이터 증강 방법은 DCASE 2020 데이터셋에서 SELD 점수를 0.40에서 0.17로 감소시켜 상대적 향상률 57.5%를 기록했다.
  • 기준 모델 대비 F20°에서 0.27% 향상되고, 로컬라이제이션 오차(LECD)는 15.4% 감소했다.
  • 전체 데이터 증강을 적용한 ResNet-Conformer 모델은 DCASE 2020에서 0.17의 SELD 점수를 기록하여 챌린지에서 1위를 차지했다.
  • DCASE 2022에서는 앙상블 전략을 사용하여 ResNet-Conformer 모델의 SELD 점수를 0.47에서 0.28로 감소시켜 1위를 확보했다.
  • 시각화 결과는 증강된 모델이 짧고 겹치는 이벤트를 정확히 탐지하는 반면, 증강되지 않은 모델은 이러한 경우에서 실패하는 것으로 나타났다.
  • 성능 향상은 겹침 및 순발력 있는 이벤트에서 가장 두드러졌으며, 이는 복잡한 음향 환경을 다루는 데 증강 기법의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.