QUICK REVIEW

[논문 리뷰] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|2018. 07. 26.

Music and Audio Processing참고 문헌 7인용 수 100

한 줄 요약

이 논문은 Freesound 오디오 태깅에서 DCASE 2018 Task 2를 AudioSet 레이블과 함께 다루고, FSDKaggle2018 데이터셋을 소개하며, mAP@3 0.70의 baseline 3-layer CNN 시스템을 제공한다.

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

연구 동기 및 목표

Broad-spectrum 오디오 태깅의 동기를 Freesound 사용자 생성 콘텐츠로 확장합니다.
41개의 AudioSet 카테고리와 혼합 주석 신뢰성을 갖춘 데이터셋(FSDKaggle2018)을 만듭니다.
현실적이고 다양한 mildly noisy 데이터셋에서 기본 태깅 방법을 평가합니다.

제안 방법

Freesound 태그를 AudioSet 카테고리와 연결하는 데이터 수집 및 주석 과정 기술.
수동으로 확인된 주석과 비확인 주석 및 QE 기반 필터링으로 FSDKaggle2018 구성.
41개 카테고리 전체에 걸쳐 약 18시간의 오디오 및 11k 클립으로 train/test로 분할.
로그-멜 스펙트로그램 입력에서 3개의 합성곱 층과 41방향 소프트맥스 출력을 갖는 baseline CNN 모델 제안.
오디오를 0.25초 창으로 처리하고 홉 길이 0.125초로 설정한 뒤 창 수준 예측을 평균화하여 클립 수준 출력으로 변환.

실험 결과

연구 질문

RQ1일반 목적의 오디오 태깅 모델이 다양한 현실 Freesound 클립을 41개의 AudioSet 카테고리로 올바르게 분류할 수 있는가?
RQ2주석 신뢰도(수동 확인 대 비확인)가 모델 학습 및 평가에 어떤 영향을 미치는가?
RQ3표준 CNN 아키텍처로 FSDKaggle2018에서 어떤 baseline 성능(mAP@3)을 달성할 수 있는가?
RQ4클립 길이, 데이터 균형, 잎/상위 카테고리 합치기와 같은 데이터셋 설계 선택이 결과에 어떤 영향을 주는가?

주요 결과

baseline CNN은 전체 테스트 세트에서 mAP@3 0.70을 달성(공개 0.70, Kaggle 비공개 분할 0.69).
FSDKaggle2018은 41개 카테고리의 11,073개 오디오 클립을 포함하며, train/test 분할 및 총 ~18시간의 오디오를 보유.
수동으로 확인된 주석은 Present and Predominant(PP); 비확인 주석은 QE ≥ 65%이며 노이즈가 있을 수 있음.
데이터 누출을 억제하고 공정한 평가를 보장하기 위해 테스트 세트에 패딩 클립이 포함되어 있음.
41개 카테고리 모두에 대해 카테고리별 AP@3 값을 표 2에 보고하여 카테고리 간 변동성을 보여줌.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.