Skip to main content
QUICK REVIEW

[논문 리뷰] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|2018. 07. 26.
Music and Audio Processing참고 문헌 7인용 수 100
한 줄 요약

이 논문은 Freesound 오디오 태깅에서 DCASE 2018 Task 2를 AudioSet 레이블과 함께 다루고, FSDKaggle2018 데이터셋을 소개하며, mAP@3 0.70의 baseline 3-layer CNN 시스템을 제공한다.

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

연구 동기 및 목표

  • Broad-spectrum 오디오 태깅의 동기를 Freesound 사용자 생성 콘텐츠로 확장합니다.
  • 41개의 AudioSet 카테고리와 혼합 주석 신뢰성을 갖춘 데이터셋(FSDKaggle2018)을 만듭니다.
  • 현실적이고 다양한 mildly noisy 데이터셋에서 기본 태깅 방법을 평가합니다.

제안 방법

  • Freesound 태그를 AudioSet 카테고리와 연결하는 데이터 수집 및 주석 과정 기술.
  • 수동으로 확인된 주석과 비확인 주석 및 QE 기반 필터링으로 FSDKaggle2018 구성.
  • 41개 카테고리 전체에 걸쳐 약 18시간의 오디오 및 11k 클립으로 train/test로 분할.
  • 로그-멜 스펙트로그램 입력에서 3개의 합성곱 층과 41방향 소프트맥스 출력을 갖는 baseline CNN 모델 제안.
  • 오디오를 0.25초 창으로 처리하고 홉 길이 0.125초로 설정한 뒤 창 수준 예측을 평균화하여 클립 수준 출력으로 변환.

실험 결과

연구 질문

  • RQ1일반 목적의 오디오 태깅 모델이 다양한 현실 Freesound 클립을 41개의 AudioSet 카테고리로 올바르게 분류할 수 있는가?
  • RQ2주석 신뢰도(수동 확인 대 비확인)가 모델 학습 및 평가에 어떤 영향을 미치는가?
  • RQ3표준 CNN 아키텍처로 FSDKaggle2018에서 어떤 baseline 성능(mAP@3)을 달성할 수 있는가?
  • RQ4클립 길이, 데이터 균형, 잎/상위 카테고리 합치기와 같은 데이터셋 설계 선택이 결과에 어떤 영향을 주는가?

주요 결과

  • baseline CNN은 전체 테스트 세트에서 mAP@3 0.70을 달성(공개 0.70, Kaggle 비공개 분할 0.69).
  • FSDKaggle2018은 41개 카테고리의 11,073개 오디오 클립을 포함하며, train/test 분할 및 총 ~18시간의 오디오를 보유.
  • 수동으로 확인된 주석은 Present and Predominant(PP); 비확인 주석은 QE ≥ 65%이며 노이즈가 있을 수 있음.
  • 데이터 누출을 억제하고 공정한 평가를 보장하기 위해 테스트 세트에 패딩 클립이 포함되어 있음.
  • 41개 카테고리 모두에 대해 카테고리별 AP@3 값을 표 2에 보고하여 카테고리 간 변동성을 보여줌.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.