QUICK REVIEW

[논문 리뷰] A Closer Look at Weak Label Learning for Audio Events

Ankit Shah, Anurag Kumar|arXiv (Cornell University)|2018. 04. 24.

Music and Audio Processing참고 문헌 4인용 수 47

한 줄 요약

논문은 WAL-Net을 제시하며 weakly labeled 오디오 이벤트 탐지를 위한 CNN 기반 접근법을 제시하고, Audioset에서 레이블 밀도와 레이블 손상(오염)이 학습에 미치는 영향과 웹에서 얻은 약한 데이터와의 비교를 분석합니다.

ABSTRACT

Audio content analysis in terms of sound events is an important research problem for a variety of applications. Recently, the development of weak labeling approaches for audio or sound event detection (AED) and availability of large scale weakly labeled dataset have finally opened up the possibility of large scale AED. However, a deeper understanding of how weak labels affect the learning for sound events is still missing from literature. In this work, we first describe a CNN based approach for weakly supervised training of audio events. The approach follows some basic design principle desirable in a learning method relying on weakly labeled audio. We then describe important characteristics, which naturally arise in weakly supervised learning of sound events. We show how these aspects of weak labels affect the generalization of models. More specifically, we study how characteristics such as label density and corruption of labels affects weakly supervised training for audio events. We also study the feasibility of directly obtaining weak labeled data from the web without any manual label and compare it with a dataset which has been manually labeled. The analysis and understanding of these factors should be taken into picture in the development of future weak label learning methods. Audioset, a large scale weakly labeled dataset for sound events is used in our experiments.

연구 동기 및 목표

대형 웹 데이터셋의 약한 레이블을 사용한 확장 가능한 오디오 이벤트 탐지의 동기를 제공합니다.
weak labeling 하에서 세그먼트 수준의 후 확률을 학습하고 이를 평균 풀링을 통해 녹음 수준 예측으로 집계하는 CNN 기반 아키텍처(WAL-Net)를 제안합니다.
약한 지도 학습 AED에서 레이블 밀도와 레이블 손상 잡음이 일반화에 미치는 영향을 규명합니다.
수동으로 라벨링된 데이터와 웹으로부터 얻은 약한 라벨의 학습을 비교하고 약한 라벨링을 위한 웹 마이닝의 타당성을 연구합니다.

제안 방법

로그-멜 스펙트로그램에서 세그먼트 수준 후 확률을 예측하고 평균 풀링을 통해 녹음 수준 출력으로 매핑하는 완전 합성곱 신경망(WAL-Net)을 도입합니다.
녹음 수준의 약한 라벨을 사용하여 모든 클래스에 대해 멀티레이블 이진 교차 엔트로피 손실로 학습합니다.
128 프레임 로그-멜 입력, 배치 정규화와 ReLU를 갖춘 3×3 합성곱, 약 1.5초 규모의 세그먼트와 50% 중첩을 사용합니다.
가변 길이 녹음과 세그먼트 수준 출력을 검사하여 시간적 위치 추정을 가능하게 합니다.
레이블 밀도를 감소시킨 Audioset-At-30 및 Audioset-At-60으로 성능에 미치는 영향을 시뮬레이션합니다.
레이블 손상을 점진적으로 악화시키며 Audioset를 실험하고 웹 기반 YouTube-wild 데이터셋과 비교하여 레이블 소음에 대한 강건성을 평가합니다.

실험 결과

연구 질문

RQ1CNN 기반의 약하게 지도된 모델(WAL-Net)이 레코딩 수준 라벨만 사용하여 대규모 Audioset에서 얼마나 잘 수행하는가?
RQ2약한 라벨에서의 레이블 밀도와 레이블 손상 소음이 AED 일반화에 어떤 영향을 미치는가?
RQ3웹에서 마이닝된 약한 라벨(YouTube-wild)이 수작업으로 라벨링된 Audioset 데이터의 성능에 근접할 수 있는가?
RQ4더 긴 녹음에 더 드문 이벤트가 존재하는 경우 레이블 밀도 감소가 모델 성능에 미치는 영향은 무엇인가?

주요 결과

WAL-Net은 Audioset에서 MAUC 약 0.925, 전체 527개 이벤트에 대해 AP 0.196의 성능을 달성합니다.
성능은 사건의 구체성에 따라 크게 달라지며, 특정 소리(예: 바가파이프, 사이렌)에서 높은 AP를 보이고 모호한 소리(예: 실내/공개 공간)에서는 매우 낮은 AP를 보입니다.
레이블 밀도를 10초(Audioset)에서 30초(Audioset-At-30)로 감소시키면 MAP가 상대적으로 약 12% 감소하여 레이블 밀도에 민감함을 보여줍니다.
Audioset-At-60은 레이블 밀도를 더 낮추고 레이블 소음에 대한 강건성에 대한 추가 인사이트를 제공합니다. YouTube-wild 실험은 웹 기반 약한 라벨의 도전과제를 보여줍니다.
Audioset은 이 연구에서 수작업으로 라벨링된 거의 완벽한 라벨로 간주되며, 라벨의 체계적 손상은 약한 지도 학습 학습을 악화시키는 것을 보여줍니다.
WAL-Net은 세그먼트 수준 예측을 활용하고 이를 평균화하여 녹음 수준 출력으로 연결함으로써 약하게 지도된 설정에서 시간적으로 이벤트를 로컬화할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.