QUICK REVIEW

[논문 리뷰] Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network

Sharath Adavanne, Tuomas Virtanen|arXiv (Cornell University)|2017. 10. 09.

Music and Audio Processing참고 문헌 20인용 수 42

한 줄 요약

이 논문은 강한 레이블(시작/종료 시간)이 없이 오직 이벤트 클래스만 제공되는 약한 레이블된 오디오 데이터에서 소리 이벤트 경계를 검출하기 위해 이중 예측 헤드를 갖춘 스택드 컨volution 및 순환 신경망을 제안한다. 강한 레이블(약한 레이블에서 복제됨)과 약한 레이블을 함께 학습하면서 적응형 손실 가중치를 적용함으로써, 155시간 분량의 데이터셋에서 강한 레이블 오류율 0.84와 약한 레이블 F-스코어 43.3%를 달성하여 최소한의 감독에서 효과적인 자기지도 학습을 통한 시간적 국소화를 입증한다.

ABSTRACT

This paper proposes a neural network architecture and training scheme to learn the start and end time of sound events (strong labels) in an audio recording given just the list of sound events existing in the audio without time information (weak labels). We achieve this by using a stacked convolutional and recurrent neural network with two prediction layers in sequence one for the strong followed by the weak label. The network is trained using frame-wise log mel-band energy as the input audio feature, and weak labels provided in the dataset as labels for the weak label prediction layer. Strong labels are generated by replicating the weak labels as many number of times as the frames in the input audio feature, and used for strong label layer during training. We propose to control what the network learns from the weak and strong labels by different weighting for the loss computed in the two prediction layers. The proposed method is evaluated on a publicly available dataset of 155 hours with 17 sound event classes. The method achieves the best error rate of 0.84 for strong labels and F-score of 43.3% for weak labels on the unseen test split.

연구 동기 및 목표

시작/종료 시간 정보가 없는 단지 이벤트 클래스 목록만 제공되는 약한 레이블로부터 정확한 소리 이벤트 경계(강한 레이블)를 학습할 수 있는 딥 러닝 방법을 개발한다.
강한 레이블의 높은 레이블링 비용 문제를 해결하기 위해 대규모 소리 이벤트 검출에 약한 레이블된 데이터를 활용한다.
약한 감독에서 프레임 단위 예측을 학습할 수 있도록 설계된 네트워크를 통해 소리 이벤트 검출의 시간 해상도를 향상시킨다.
강한 레이블과 약한 레이블 예측 헤드 간의 손실 가중치가 모델 성능에 미치는 영향을 조사한다.
17개의 소리 이벤트 클래스와 155시간 분량의 오디오를 포함한 대규모 공개 데이터셋을 기반으로 방법을 검증한다.

제안 방법

모델의 백본으로 로그 멜-밴드 에너지 특징을 오디오에서 추출한 스택드 컨volution 및 순환 신경망(CNN-GRU)을 사용한다.
두 개의 순차적 예측 헤드를 갖는다: 하나는 프레임 단위 강한 레이블(이벤트 시작/종료 시간), 다른 하나는 약한 레이블(클립 내 이벤트 존재 여부)을 위한 것이다.
강한 레이블은 입력 오디오 특징 시퀀스의 모든 프레임에 걸쳐 약한 레이블 벡터를 복제하여 생성된다.
강한 레이블 예측과 약한 레이블 예측을 위한 두 손실 함수의 가중 조합을 사용하여 모델을 학습한다.
강한 레이블과 약한 레이블 헤드의 손실 가중치를 학습 중에 조정하여 네트워크의 학습 초점을 시간 경계 학습과 이벤트 존재성 학습 간에 제어한다.
해당 입력 특징 중에서 네트워크가 주목하는 영역을 시각화하기 위해 사전 지도 시각화(Saliency maps)를 사용하여 학습된 이벤트 표현의 해석 가능성을 제공한다.

실험 결과

연구 질문

RQ1약한 레이블된 오디오 데이터에서 시간 정보가 전혀 제공되지 않는 조건에서도 딥 신경망이 정확한 소리 이벤트 경계를 학습할 수 있는가?
RQ2강한 레이블과 약한 레이블 손실 간의 상대적 가중치가 모델의 정밀한 시간 경계 학습 능력에 어떤 영향을 미치는가?
RQ3제안된 아키텍처는 약한 레이블된 데이터로만 훈련되었을 때 기존 방법보다 우수한 성능을 보일 수 있는가?
RQ4어떤 종류의 소리 이벤트가 가장 정확하고 가장 불확실하게 검출되는가, 그 이유는 무엇인가?
RQ5네트워크의 내부 표현이 특정 이벤트에 관련된 유의미한 오디오 패턴을 학습하는 데 얼마나 기여하는가?

주요 결과

모델은 DCASE 2017 데이터셋의 unseen 테스트 분할에서 강한 레이블 오류율 0.84와 약한 레이블 F-스코어 43.3%를 달성한다.
초기 직관과는 반대로, 강한 레이블과 약한 레이블 예측 헤드에 동일한 손실 가중치를 적용했을 때 최고의 성능을 기록했다.
강한 레이블 손실에 더 높은 가중치를 적용한 경우, 강한 레이블 검출 성능(ER = 0.84)은 향상되었지만 약한 레이블 성능은 악화되어 두 목표 간의 상충 관계가 있음을 시사한다.
차량 소리(예: 기차, 스케이트보드)와 경고 신호(예: 소방차 경적, 민방위 경보음)는 F-스코어 60% 이상을 기록했지만, 구급차 경적과 자동차 경보음은 F-스코어가 0이었다.
사전 지도 시각화를 통해 네트워크가 실제 소리 이벤트에 해당하는 로그 멜-밴드 에너지 입력의 관련 시간 영역에 주목하고 있음을 확인했다.
업샘플링이나 세그먼트 기반 훈련에 의존하는 이전 방법보다 성능이 뛰어나며, 프레임 단위 예측 설계 덕분에 더 높은 시간 해상도를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.