QUICK REVIEW

[논문 리뷰] Learning from Between-class Examples for Deep Sound Recognition

Yuji Tokozume, Yoshitaka Ushiku|arXiv (Cornell University)|2017. 11. 28.

Music and Audio Processing참고 문헌 14인용 수 153

한 줄 요약

BC 학습은 서로 다른 클래스의 두 소리를 혼합하고 혼합 비율을 예측하도록 모델을 학습시켜 네트워크와 데이터셋 전반에서 정확도가 향상되며 EnvNet-v2가 ESC-50에서 인간 수준을 능가한다.

ABSTRACT

Deep learning methods have achieved high performance in sound recognition tasks. Deciding how to feed the training data is important for further performance improvement. We propose a novel learning method for deep sound recognition: Between-Class learning (BC learning). Our strategy is to learn a discriminative feature space by recognizing the between-class sounds as between-class sounds. We generate between-class sounds by mixing two sounds belonging to different classes with a random ratio. We then input the mixed sound to the model and train the model to output the mixing ratio. The advantages of BC learning are not limited only to the increase in variation of the training data; BC learning leads to an enlargement of Fisher's criterion in the feature space and a regularization of the positional relationship among the feature distributions of the classes. The experimental results show that BC learning improves the performance on various sound recognition networks, datasets, and data augmentation schemes, in which BC learning proves to be always beneficial. Furthermore, we construct a new deep sound recognition network (EnvNet-v2) and train it with BC learning. As a result, we achieved a performance surpasses the human level.

연구 동기 및 목표

딥 사운드 인식의 데이터 활용 향상을 동기 부여한다.
다른 클래스의 소리를 혼합하여 Between-Class(BC) 학습을 도입한다.
믹스 비율을 예측하도록 모델을 학습시켜 Fisher의 기준을 확대한다.
여러 아키텍처와 데이터셋에서 BC 학습을 입증한다.
더 깊은 네트워크를 사용한 BC 학습이 ESC-50에서 인간의 성능을 능가할 수 있음을 보여준다.

제안 방법

서로 다른 클래스의 두 소리를 임의의 비율로 혼합하여 학습 샘플을 생성한다.
소리 압력 레벨을 고려한 혼합 공식을 사용하고 인지된 비율을 보존하기 위해 해당 p를 계산한다(Eq. 2).
혼합 라벨을 t = r t1 + (1 - r) t2 로 표현하고 KL-다이버전스 손실로 최적화한다.
미니배치 SGD로 학습한다; BC 학습은 표준 학습보다 더 많은 에포크가 필요할 수 있다.
특징 공간을 시각화하여 Fisher의 기준 확장과 클래스 관계의 정규화를 주장한다.

실험 결과

연구 질문

RQ1BC 학습이 아키텍처, 데이터셋 및 데이터 증강 스킴 전반에서 인식 성능을 향상시키는가?
RQ2BC의 효과를 극대화하기 위해 두 소리를 어떻게 혼합하고 라벨을 어떻게 할당해야 하는가?
RQ3특징 공간에서 Fisher의 기준과 클래스 관계 정규화에 대한 BC 학습의 효과는 무엇인가?
RQ4BC 학습이 도전적인 환경 소리 데이터셋에서 인간의 성능을 능가할 수 있는가?

주요 결과

모델	학습	ESC-50	ESC-10	UrbanSound8K
EnvNet (Tokozume & Harada, 2017)	Standard	29.2±0.1	12.8±0.4	33.7
EnvNet (Tokozume & Harada, 2017)	BC (ours)	24.1±0.2	11.3±0.6	28.9
SoundNet5 (Aytar et al., 2016)	Standard	33.8±0.2	16.4±0.8	33.3
SoundNet5 (Aytar et al., 2016)	BC (ours)	27.4±0.3	13.9±0.4	30.2
M18 (Dai et al., 2017)	Standard	31.5±0.5	18.2±0.5	28.8
M18 (Dai et al., 2017)	BC (ours)	26.7±0.1	14.2±0.9	26.5
Logmel-CNN (Piczak, 2015a) + BN	Standard	27.6±0.2	13.2±0.4	25.3
Logmel-CNN (Piczak, 2015a) + BN	BC (ours)	23.1±0.3	9.4±0.4	23.5
EnvNet-v2 (ours)	Standard	25.6±0.3	14.2±0.8	30.9
EnvNet-v2 (ours)	BC (ours)	18.2±0.2	10.6±0.6	23.4
EnvNet-v2 (ours) + strong augment	Standard	21.2±0.3	10.9±0.6	24.9
EnvNet-v2 (ours) + strong augment	BC (ours)	15.1±0.2	8.6±0.1	21.7

BC 학습은 ESC-50, ESC-10, UrbanSound8K에 대해 EnvNet, SoundNet5, M18, Logmel-CNN+BN, EnvNet-v2 등 모든 평가 네트워크에서 성능을 향상시켰다.
EnvNet-v2를 사용한 ESC-50에서 BC 학습은 18.2% 오류(일반적으로 25.6%에 비해)였으며, 강한 증강 하에서 15.1%까지 추가 향상을 보였다.
BC 학습은 Fisher의 기준을 더 크게 만들고 클래스 분포를 정규화하여 혼합 클래스 소리에 대한 오분류를 줄인다.
BC 학습을 적용한 EnvNet-v2가 ESC-50에서 인간의 성능을 능가한다(이전 연구에서 인간은 18.7%로 보고됨).
제시된 혼합 방법(Eq. 2 및 A-가중치)과 비율 표기가 최상의 성능을 보이며 ESC-50에서 24.1% 오류를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.