QUICK REVIEW

[논문 리뷰] Basic Filters for Convolutional Neural Networks: Training or Design?

Monika Dörfler, Thomas Grill|arXiv (Cornell University)|2017. 09. 07.

Neural Networks and Applications인용 수 4

한 줄 요약

이 논문은 CNN에서 표준 멜스펙트로그램 전처리를 원시 음성에 직접 적용되는 적응형 필터로 대체할 것을 제안하며, 학습된 필터에 시간 평균을 적용한 것이 전통적인 푸리에 기반 멜스펙트로그램보다 노래하는 음성 탐지에서 더 우수한 성능을 보임을 입증한다. 이론적 및 실험적 결과는 적응형 필터가 효과적으로 멜스펙트로그램을 근사할 수 있으며, 분류 성능을 향상시킬 수 있음을 확인한다.

ABSTRACT

When convolutional neural networks are used to tackle learning problems based on music or, more generally, time series data, raw one-dimensional data are commonly pre-processed to obtain spectrogram or mel-spectrogram coefficients, which are then used as input to the actual neural network. In this contribution, we investigate, both theoretically and experimentally, the influence of this pre-processing step on the network's performance and pose the question, whether replacing it by applying adaptive or learned filters directly to the raw data, can improve learning success. The theoretical results show that approximately reproducing mel-spectrogram coefficients by applying adaptive filters and subsequent time-averaging is in principle possible. We also conducted extensive experimental work on the task of singing voice detection in music. The results of these experiments show that for classification based on Convolutional Neural Networks the features obtained from adaptive filter banks followed by time-averaging perform better than the canonical Fourier-transform-based mel-spectrogram coefficients. Alternative adaptive approaches with center frequencies or time-averaging lengths learned from training data perform equally well.

연구 동기 및 목표

고정된 멜스펙트로그램 전처리를 적응형 필터로 대체할 경우 CNN의 시계열 음성 데이터 성능 향상 여부를 조사하는 것.
이론적 분석을 통해 학습된 필터가 적절한 설계를 통해 멜스펙트로그램 계수를 효과적으로 근사할 수 있는지 확인하는 것.
표준 멜스펙트로그램과 비교하여 가중치를 학습할 수 있는 중심 주파수 또는 시간 평균 길이를 가진 적응형 필터 베이스의 성능을 평가하는 것.
적응형 필터를 사용한 엔드 투 엔드 학습이 노래하는 음성 탐지 작업에서 더 높은 분류 정확도를 이끌어내는지 평가하는 것.

제안 방법

고정된 푸리에 기반 멜스펙트로그램 계산을 원시 음성을 직접 처리하는 적응형 필터 베이스로 대체하는 것을 제안한다.
적응형 필터링 이후 시간 평균을 적용하여 멜스펙트로그램의 에너지 집약 특성을 모방한다.
이론적 분석을 통해 적절한 설계를 가진 적응형 필터가 멜스펙트로그램 계수를 근사적으로 재현할 수 있음을 보여준다.
중심 주파수 및 시간 평균 윈도우의 학습 가능한 파rameter를 가진 적응형 필터 베이스에서 얻은 특징을 사용해 CNN의 엔드 투 엔드 학습을 수행한다.
동일한 CNN 아키텍처를 사용해 노래하는 음성 탐지 벤치마크에서 표준 멜스펙트로그램 입력과 성능을 비교한다.
고정 및 학습 가능한 필터 베이스 파rameter를 포함한 다양한 적응형 설정을 평가하여 강건성과 일반화 능력을 점검한다.

실험 결과

연구 질문

RQ1적응형 필터가 충분히 멜스펙트로그램 계수를 근사하여 CNN의 효과적인 입력 특징으로 기능할 수 있는가?
RQ2고정된 멜스펙트로그램 전처리를 학습된 적응형 필터로 대체할 경우 시계열 음성 작업에서 분류 정확도 향상이 이루어지는가?
RQ3중심 주파수 또는 시간 평균 길이를 다양하게 설정한 적응형 필터의 다양한 설정이 모델 성능에 미치는 영향은 어떠한가?
RQ4적응형 필터에서 발생하는 성능 향상은 더 나은 특징 표현 때문인지, 입력 변동에 대한 더 높은 불변성 때문인지?

주요 결과

이론적 분석은 적응형 필터에 시간 평균을 적용할 경우 멜스펙트로그램 계수를 근사적으로 재현할 수 있음을 확인한다.
실험 결과는 시간 평균을 적용한 적응형 필터 베이스가 표준 푸리에 기반 멜스펙트로그램보다 노래하는 음성 탐지에서 더 뛰어난 성능을 보임을 보여준다.
학습 가능한 중심 주파수 또는 시간 평균 길이를 가진 설정은 최고의 고정된 적응형 필터 설정과 비교해 유사한 성능을 달성한다.
푸리에 변환을 통한 전처리 없이도 분류 성공률 향상이 가능하다.
적응형 필터를 사용한 엔드 투 엔드 학습은 고정된 멜스펙트로그램 입력보다 더 뛰어난 일반화 및 특징 학습 능력을 보인다.
다양한 실험 설정에서 성능 향상이 일관되게 관찰되어 적응형 필터링 접근법의 강건성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.