Skip to main content
QUICK REVIEW

[논문 리뷰] SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context

Mark Cartwright, Jason Cramer|arXiv (Cornell University)|2020. 09. 11.
Music and Audio Processing참고 문헌 12인용 수 30
한 줄 요약

SONYC-UST-V2는 다중 라벨 사운드 태깅을 위한 시공간 맥락(STC)을 갖춘 18,510개의 주석이 달린 10초 도시 오디오 녹음을 제공하고, STC 정보를 이용한 baseline 실험을 제시한다.

ABSTRACT

We present SONYC-UST-V2, a dataset for urban sound tagging with spatiotemporal information. This dataset is aimed for the development and evaluation of machine listening systems for real-world urban noise monitoring. While datasets of urban recordings are available, this dataset provides the opportunity to investigate how spatiotemporal metadata can aid in the prediction of urban sound tags. SONYC-UST-V2 consists of 18510 audio recordings from the "Sounds of New York City" (SONYC) acoustic sensor network, including the timestamp of audio acquisition and location of the sensor. The dataset contains annotations by volunteers from the Zooniverse citizen science platform, as well as a two-stage verification with our team. In this article, we describe our data collection procedure and propose evaluation metrics for multilabel classification of urban sound tags. We report the results of a simple baseline model that exploits spatiotemporal information.

연구 동기 및 목표

  • STC를 포함한 시공간 맥락을 가진 대규모 도시 사운드 태깅 데이터 세트인 SONYC-UST-V2를 소개한다.
  • 각 녹음을 NYC 센서 위치와 채집 시각(또한 시간)에 연결하는 메타데이터를 제공하여 맥락 인식 모델링을 가능하게 한다.
  • 데이터 수집, 주석 작업 흐름(크라우드소싱 및 검증) 및 센서/시간이 겹치지 않도록 보장하는 데이터세트 분할을 설명한다.
  • 거친/세밀 분류 수준에서의 다중 라벨 태깅 평가 지표를 제시하고 STC를 포함하는 벤치마인을 수립한다.

제안 방법

  • 콘텐츠 특징으로 OpenL3 오디오 임베딩을 사용하는 다중 라벨 신경망 벤치마크.
  • 공간(위도, 경도) 및 시간(시, 일, 주) 맥락과 함께 오디오 임베딩을 연결한다.
  • 단일 은닉층과 프레임 집계용 AutoPool을 갖춘 다층 퍼셉트론을 학습한다.
  • 평가 중 불완전한 주석을 처리하기 위해 거친-세밀 태그 코어싱(coarsening) 전략을 사용한다.
  • STC가 있는 경우와 없는 경우의 벤치마크 성능을 비교한다.
  • 크라우드소싱으로 얻은 약한 주석이 있는 경우 학습 라벨에 대해 소수 투표 집계를 사용한다.

실험 결과

연구 질문

  • RQ1실세계 센서 데이터에서 시공간 맥 context가 도시 사운드 태깅 성능을 향상시킬 수 있는가?
  • RQ2STC를 활용할 때 거친(굵은) 태그 예측과 세밀한 태그 예측의 성능 차이는 어떻게 나타나는가?
  • RQ3노이즈가 있는 크라우드소싱 주석으로 다중 라벨 도시 사운드 태깅을 학습하고 평가하기 위한 효과적인 전략은 무엇인가?
  • RQ4검증된 주석과 크라우드소싱 주석이 센서 간 모델 성능 및 일반화에 어떤 영향을 미치는가?
  • RQ5센서별 및 시간적 이격(displacement)에 따른 데이터세트 분리성이 일반화에 미치는 영향은 무엇인가?

주요 결과

  • SONYC-UST-V2는 56개의 센서(2016–2019)에서 수록된 18,510개의 주석 녹음을 포함한다.
  • 주석에는 23개의 세밀한 태그와 8개의 거친 태그가 포함되며, 시공간 메타데이터(블록 수준 위치와 시간당 타임스탬프)가 제공된다.
  • STC를 활용한 간단한 벤치마크는 이 설정에서 비-STC 대비 한계를 보이며, 더 정교한 STC 방법의 필요성을 강조한다.
  • 두 단계 평가(거친/세밀)는 macro-AUPRC, micro-AUPRC, LWLRAP 지표를 사용하며, 불확실한 세밀 라벨에 대한 코어싱(coarsening) 접근법을 적용한다.
  • 데이터셋은 크라우드소싱과 검증된 주석을 모두 포함하여 주석 집계 및 신뢰성 모델링을 탐구할 수 있게 한다.
  • 데이터셋 설계는 학습/검증과 시간적으로 분리된 테스트 데이터 간에 센서가 겹치지 않도록 보장하여 일반화를 평가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.