Skip to main content
QUICK REVIEW

[논문 리뷰] A Dataset of Reverberant Spatial Sound Scenes with Moving Sources for Sound Event Localization and Detection

Archontis Politis, Sharath Adavanne|arXiv (Cornell University)|2020. 06. 02.
Music and Audio Processing참고 문헌 29인용 수 43
한 줄 요약

DCASE 2020 SELD 데이터셋을 도입하며, 다중 방에서 잔향이 존재하고 움직이는 소스들을 포함한 실험과 함께 SELDnet을 baseline으로 제시하고, 공동 SELD 평가 지표를 제공합니다. 또한 강력한 벤치마킹을 위해 MIC 및 FOA 포맷을 제공합니다.

ABSTRACT

This report presents the dataset and the evaluation setup of the Sound Event Localization & Detection (SELD) task for the DCASE 2020 Challenge. The SELD task refers to the problem of trying to simultaneously classify a known set of sound event classes, detect their temporal activations, and estimate their spatial directions or locations while they are active. To train and test SELD systems, datasets of diverse sound events occurring under realistic acoustic conditions are needed. Compared to the previous challenge, a significantly more complex dataset was created for DCASE 2020. The two key differences are a more diverse range of acoustical conditions, and dynamic conditions, i.e. moving sources. The spatial sound scenes are created using real room impulse responses captured in a continuous manner with a slowly moving excitation source. Both static and moving sound events are synthesized from them. Ambient noise recorded on location is added to complete the generation of scene recordings. A baseline SELD method accompanies the dataset, based on a convolutional recurrent neural network, to provide benchmark scores for the task. The baseline is an updated version of the one used in the previous challenge, with input features and training modifications to improve its performance.

연구 동기 및 목표

  • 정적인 소스와 움직이는 소스가 모두 포함된 다양한 잔향 조건하에서 현실적인 SELD 데이터셋의 필요성을 자극한다.
  • 움직이는 소스가 있는 잔향 사운드 씬의 크고 다양한 데이터셋을 생성하여 SELD 시스템에 도전 과제를 제공합니다.
  • 공정한 방법 비교를 위한 두 가지 보완적 데이터 포맷(MIC와 FOA)과 고정된 평가 설정을 제공합니다.
  • 기준이 되는 SELDnet과 공동 SELD 성능 지표를 제시하여 향후 연구를 안내합니다.

제안 방법

  • 13개 방의 계측된 룸 임펄스 응답(RIR)을 이용해 움직이는 소리 이벤트와 정적 소리를 컨볼루션하여 공간적 혼합 신호를 합성합니다.
  • 움직이는 소스를 위해 의사 난수 MLS 궤적을 사용하여 연속적인 공간 변화를 포착합니다.
  • 현실감을 높이기 위해 다양한 SNR에서 방음 잡음(ambient room noise)을 혼합합니다.
  • MIC(4채널 테트라헤드럴) 및 FOA(1차 Ambisonics) 포맷으로 데이터를 제공하여 포맷 의존적 특징을 연구합니다.
  • 행렬 의존적 특징과 마스킹 DOA 손실을 사용하는 공동 SED+DOA 학습 목표를 통해 SELDnet baseline을 적응합니다.
  • 전통적인 2019년 지표(DE, FR, ER, F) 외에도 공동 SELD 지표(LE_CD, LR_CD, ER_20°, F_20°)로 평가합니다.

실험 결과

연구 질문

  • RQ1잔향 환경에서 움직이는 사운드 소스의 탐지, 분류 및 위치 추정에 대해 SELD 시스템은 얼마나 잘 수행할 수 있는가?
  • RQ2움직이는 소스와 다양한 음향 조건이 정적 데이터셋과 비교하여 SELD 성능에 유의미한 영향을 주는가?
  • RQ3MIC와 FOA 포맷 제공이 SELD 연구 및 특징 설계에 어떤 이점을 주는가?
  • RQ4공동 SELD 지표와 독립적인 SED 및 DOA 지표가 실제 성능 평가에 미치는 차이는 무엇인가?

주요 결과

Dataset Format / MetricDEFRERFLE_CDLR_CDER_20°F_20°
FOA Development (2019 metrics)20.262.90.5462----
FOA Test (2019 metrics)20.466.60.5460.9----
MIC Development (2019 metrics)21.963.80.5362.8----
MIC Test (2019 metrics)22.666.80.5659.2----
FOA Val (2020 joint metrics)----23.562.00.7237.7
FOA Test (2020 joint metrics)----22.860.70.7237.4
MIC Val (2020 joint metrics)----27.062.60.7434.2
MIC Test (2020 joint metrics)----27.359.00.7831.4
  • 기준 SELDnet이 새로운 데이터셋에서 공동 탐지 및 위치 추정에 의해 측정 가능한 성능을 달성하며, 포맷과 방에 따라 성능이 다르게 나타난다.
  • 같은 녹음 세트에서 FOA 포맷이 MIC보다 일반적으로 더 나은 SELD 성능을 보인다.
  • 다중 음성(polyphony)에서의 성능 저하와 미확인 공간에서의 방 의존 일반화 이슈를 보인다.
  • 공동 지표(LE_CD, LR_CD, ER_20°, F_20°)가 2019년의 분리 지표(DE, FR, ER, F)보다 보완적인 통찰을 제공하며 공동 탐지/위치 추정 평가의 이점을 강조한다.
  • 움직이는 소스, 다양한 잔향, 현실적인 주변 소음으로부터의 큰 도전 과제를 보여주며 SELD 방법의 발전 필요성을 자극한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.