QUICK REVIEW

[논문 리뷰] Sound Event Detection in Multichannel Audio Using Spatial and Harmonic Features

Sharath Adavanne, Giambattista Parascandolo|arXiv (Cornell University)|2017. 06. 07.

Music and Audio Processing참고 문헌 18인용 수 87

한 줄 요약

논문은 스테레오 공간 특징과 고하모닉 피치 기반 특징을 다중 라벨 RNN-LSTM과 함께 사용하여 스테레오 녹음에서 다성 음원 이벤트 탐지를 개선하자는 제안을 한다. 실제 데이터셋에서 바이노럴 피처가 모노-채널 기준선을 능가할 수 있음을 보여준다.

ABSTRACT

In this paper, we propose the use of spatial and harmonic features in combination with long short term memory (LSTM) recurrent neural network (RNN) for automatic sound event detection (SED) task. Real life sound recordings typically have many overlapping sound events, making it hard to recognize with just mono channel audio. Human listeners have been successfully recognizing the mixture of overlapping sound events using pitch cues and exploiting the stereo (multichannel) audio signal available at their ears to spatially localize these events. Traditionally SED systems have only been using mono channel audio, motivated by the human listener we propose to extend them to use multichannel audio. The proposed SED system is compared against the state of the art mono channel method on the development subset of TUT sound events detection 2016 database. The usage of spatial and harmonic features are shown to improve the performance of SED.

연구 동기 및 목표

실생활 다채널 오디오에서 겹치는 음원 이벤트의 자동 탐지를 촉진한다.
공간 신호와 피치 관련 특징을 활용하여 SED를 모노 오디오를 넘어서 확장한다.
스테레오 프레임워크에서 log mel-band 에너지, 피치 및 TDOA를 결합하면 탐지 성능이 향상됨을 입증한다.
TUT SED 2016 개발 부분집합에서 접근법을 평가하고 모노 채널 기준선과 비교한다.

제안 방법

양 스테레오 채널에 대해 log mel-band 에너지를 추출한다(40 mel-band).
하모닉 특징 계산: 절대 피치와 그 주기성; 채널당 프레임당 상위 3개 지배 피치를 계산한다.
다섯 멜밴드에 대해 GCC-PHAT를 사용하여 다중 대역 TDOA 특징을 계산하고, 세 가지 윈도 길이(120, 240, 480 ms)로 적용한 뒤 중간값 필터링한다(tdoa 및 tdoa3).
특징들을 다중 라벨 입력 벡터로 결합하고 시그모이드 출력이 있는 이진 다중 라벨 분류를 위해 두 개의 은닉층 LSTM RNN(2x32 유닛)을 훈련한다.
입력을 정규화하고 시퀀스를 25 프레임 청크로 나눈 뒤, Adam을 사용한 이진 교차 엔트로피 손실로 학습하고, 조기 중단을 적용하며, 활성화 결정은 0.5 임계값으로 출력에 적용한다.

실험 결과

연구 질문

RQ1스테레오 log mel-band 에너지에 공간(TDOA) 및 하모닉(피치) 특징을 통합하면 모노 채널 기준선 대비 다성 SED가 개선되는가?
RQ2제안된 다채널 특징 세트가 실제 맥락(가정 및 주거 지역)에서 모노 채널 시스템에 비해 어떻게 성능을 발휘하는가?
RQ3다양한 특징 조합이 SED의 세그먼트 기반 오차율과 F-score에 어떤 영향을 주는가?

주요 결과

공간 및 하모닉 특징을 스테레오 입력과 결합하면 평가 데이터셋에서 모노 기준선에 비해 다성 SED 성능이 향상된다.
제안된 바이노럴 특징(mel_2 및 관련 조합)은 일반적으로 맥락에 따라 경쟁력 있는 또는 우수한 F-score를 달성하며, 오차율은 비슷하다.
여러 특징 조합이 모노 채널 기준선을 능가하여, 실생활 녹음에서 공간 신호(TDOA)를 SED에 통합하는 가치가 있음을 시사한다.
작은 데이터셋(약 60분)에서 바이노럴 특징이 가능성을 보이며, 일부 구성은 관련 챌런지 제출에서 최고 성능에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.