QUICK REVIEW

[논문 리뷰] Audio Spectrogram Representations for Processing with Convolutional Neural Networks

Lonce Wyse|arXiv (Cornell University)|2017. 06. 29.

Music and Audio Processing참고 문헌 6인용 수 135

한 줄 요약

논문은 CNN용 오디오 데이터 표현을 검토하며, 스타일 전송과 같은 생성적 오디오 작업에 대해 스펙트로그램에 초점을 맞추고, 사전 학습된 이미지 네트와 오디오 학습 또는 무작위 가중치 네트워크를 비교한다.

ABSTRACT

One of the decisions that arise when designing a neural network for any application is how the data should be represented in order to be presented to, and possibly generated by, a neural network. For audio, the choice is less obvious than it seems to be for visual images, and a variety of representations have been used for different applications including the raw digitized sample stream, hand-crafted features, machine discovered features, MFCCs and variants that include deltas, and a variety of spectral representations. This paper reviews some of these representations and issues that arise, focusing particularly on spectrograms for generating audio using neural networks for style transfer.

연구 동기 및 목표

다른 오디오 표현(예: 스펙트로그램, MFCC, 원시 웨이브폼)이 CNN 처리 및 생성적 작업에 어떤 영향을 미치는지 명확히 밝힌다.
음성 스펙트로그램에 이미지 기반 스타일 전송을 적용하는 가능성을 조사한다.
네트워크 가중치(사전 학습된 이미지 네트 vs 무작위 가중치)가 오디오 스타일 전송 결과에 미치는 영향을 평가한다.
채널 처리 및 주파수-시간 표현을 포함하여 스펙트로그램에 CNN을 적용하기 위한 아키텍처적 고려사항을 논의한다.

제안 방법

분류 및 생성 작업에서 신경망과 함께 사용되는 기존의 오디오 표현들을 검토한다.
사전 학습된 VGG-19를 사용하여 스펙트로그램 간의 스타일 전송과 다른 스펙트로그램의 콘텐츠를 전달하는 스펙트로그램 기반 스타일 전송을 실험한다.
이미지 네트를 위한 단일 채널 스펙트로그램을 세 채널로 중복하는 등의 실용적 이슈와 다시 단일 채널 스펙트로그램으로 변환하는 문제를 다룬다.
주파수 빈을 채널로 간주하는 방식 등 대안적 스펙트로그램 처리 접근법과 오디오용 비이미지 CNN 구조를 탐구한다.
ESC-50 파생 스펙트로그램 데이터 세트를 이용한 두 층 CNN의 소규모 실험 구성을 제시하고 스타일 전송에서 무작위 가중치와 사전 학습된 가중치를 비교한다.

실험 결과

연구 질문

RQ1이미지 기반 CNN 아키텍처(예: VGG-19)를 오디오 스펙트로그램 스타일 전송에 효과적으로 사용할 수 있는가?
RQ2무작위 가중치 네트워크가 사전 학습된 네트워크와 비교하여 일관된 콘텐츠-스타일 오디오 전송을 생성하는 데 어떤 차이가 있는가?
RQ3오디오 생성 작업을 위해 2D 이미지 CNN을 스펙트로그램에 적용하기 위해 필요한 실용적 아키텍처 조정은 무엇인가(예: 채널 처리, 주파수 표현)?
RQ4오디오 분류를 위해 훈련된 네트워크가 무작위 가중치를 가진 네트워크보다 더 통합된 콘텐츠-스타일 합성을 제공하는가?

주요 결과

스펙트로그램 표현은 전통적인 수작업 특징보다 더 많은 정보를 보유하며 원시 오디오보다 차원이 낮다.
스펙트로그램을 이용한 이미지 네트를 통한 스타일 전송은 지각 가능한 스타일-콘텐츠 혼합을 만들어내지만, 음향 표현의 차이로 인해 시각적 스타일 전송만큼 설득력 있지는 않다.
오디오 분류를 위해 학습된 네트워크가 무작위 가중치 네트워크보다 더 통합된 콘텐츠-스타일 합성을 얻는다.
단일 채널 스펙트로그램을 세 개의 이미지 채널로 복제하고 다시 단일 채널 스펙트로그램으로 변환하는 것은 처리상의 도전을 야기하며 품질에 영향을 줄 수 있다.
주파수 빈을 채널로 간주할 때 더 긴 시간 규모의 스타일 특성을 포착하려면 상당히 더 많은 채널이 필요할 수 있다.
순수 무작위 가중치 네트워크는 학습된 가중치를 가진 네트워크에 비해 스타일 전송의 탐지가 현저히 낮으며, 노이즈가 추가될 때 특히 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.