QUICK REVIEW

[논문 리뷰] Generative timbre spaces: regularizing variational auto-encoders with perceptual metrics

Philippe Esling, Axel Chemla--Romeu-Santos|arXiv (Cornell University)|2018. 05. 22.

Music and Audio Processing참고 문헌 16인용 수 20

한 줄 요약

이 논문은 음색 인지 연구에서 수집한 인간의 비유사도 평가를 통합하여 연속적이고 가역적인 음색 잠복 공간을 학습하는 감각적 정규화된 변분 오토인코더(VAE)를 제안한다. 비선형 가우시안 변환(NSGT)과 t-SNE 유사 정규화 기법을 활용함으로써, 높은 품질의 오디오 합성, 새로운 악기로의 일반화, 그리고 감각적 관계를 유지하는 디스크립터 기반 경로 합성을 실현한다.

ABSTRACT

Timbre spaces have been used in music perception to study the perceptual relationships between instruments based on dissimilarity ratings. However, these spaces do not generalize to novel examples and do not provide an invertible mapping, preventing audio synthesis. In parallel, generative models have aimed to provide methods for synthesizing novel timbres. However, these systems do not provide an understanding of their inner workings and are usually not related to any perceptually relevant information. Here, we show that Variational Auto-Encoders (VAE) can alleviate all of these limitations by constructing generative timbre spaces. To do so, we adapt VAEs to learn an audio latent space, while using perceptual ratings from timbre studies to regularize the organization of this space. The resulting space allows us to analyze novel instruments, while being able to synthesize audio from any point of this space. We introduce a specific regularization allowing to enforce any given similarity distances onto these spaces. We show that the resulting space provide almost similar distance relationships as timbre spaces. We evaluate several spectral transforms and show that the Non-Stationary Gabor Transform (NSGT) provides the highest correlation to timbre spaces and the best quality of synthesis. Furthermore, we show that these spaces can generalize to novel instruments and can generate any path between instruments to understand their timbre relationships. As these spaces are continuous, we study how audio descriptors behave along the latent dimensions. We show that even though descriptors have an overall non-linear topology, they follow a locally smooth evolution. Based on this, we introduce a method for descriptor-based synthesis and show that we can control the descriptors of an instrument while keeping its timbre structure.

연구 동기 및 목표

감각적 음색 공간과 생성적 오디오 모델 간 격차를 해소하기 위해 공통 잠복 공간에서의 합성과 분석을 가능하게 하기 위해.
기존 음색 공간의 한계(일반화 및 가역성 부족)를 극복하기 위해 연속적이고 미분 가능한 잠복 표현을 학습함으로써.
합성 과정에서 오디오 디스크립터에 대한 제어를 가능하게 하되, 감각적 부드러움과 음색의 구조를 유지하기 위해.
잠복 공간 내에서 최적의 재구성과 감각적 일치를 확보하기 위해 스펙트럼 변환기(STFT, DCT, NSGT)를 평가하고 비교하기 위해.
학습 중에 볼 수 없었던 악기로의 일반화와 목표 디스크립터 경로에 따라 유도되는 경로 기반 합성을 입증하기 위해.

제안 방법

다양한 스펙트럼 변환기를 입력 표현으로 사용하여 음악 악기의 스펙트럼 프레임에서 잠복 공간을 학습하는 VAE를 적응시킴.
다섯 개의 독립적인 음색 인지 연구에서 수집한 인간의 비유사도 평가와 일치시키기 위해 t-SNE 유사 정규화 손실을 기반으로 한 새로운 감각 정규화 손실을 적용함.
재구성 품질과 감각적 상관관계에서 뛰어난 성능을 보이므로, 최적의 입력 변환기로 비선형 가우시안 변환(NSGT)을 사용함.
작은 스펙트럼 프레임 데이터셋으로 VAE를 훈련하여 고품질 오디오 생성이 가능한 빠르고 자원 소모가 적은 학습을 실현함.
목표 디스크립터 변화(예: 스펙트럼 중심, 대역폭)를 따라 잠복점을 최적화하면서 局소 부드러움을 유지하는 디스크립터 기반 경로 합성 알고리즘을 도입함.
학습된 잠복 공간을 활용해 새로운 악기를 인코딩하고, 그들의 감각적 유사도를 예측하며, 연속적인 음색 혼성 구조를 생성함.

실험 결과

연구 질문

RQ1감각적 비유사도 평가를 사용하여 VAE를 정규화함으로써 인간의 비유사도 평가에서 발견된 감각적 관계를 유지하는 생성적 음색 공간을 만들 수 있는가?
RQ2STFT, DCT, NSGT 중 어떤 스펙트럼 변환기가 잠복 공간에서 최고의 재구성과 감각적 일치를 달성하는가?
RQ3학습 중에 볼 수 없었던 새로운 악기로의 일반화가 가능한가?
RQ4기존 오디오 디스크립터(예: 스펙트럼 중심, 대역폭)는 잠복 차원을 따라 어떻게 행동하는가? 그리고 제어 가능한 합성에 사용될 수 있는가?
RQ5목표 디스크립터 경로에 따라 잠복 경로를 유도함으로써 감각적으로 부드러운 음색 전환을 합성할 수 있는가?

주요 결과

비선형 가우시안 변환(NSGT)은 평가된 변환기들 중에서 감각적 음색 공간과 가장 높은 상관관계를 보였고, 최고 품질의 오디오 합성 결과를 도출함.
감각적으로 정규화된 VAE는 인간의 비유사도 평가에서 발견된 악기 간 상대적 거리 관계를 잘 유지하는 잠복 공간을 학습함.
학습 중에 볼 수 없었던 샘플을 인코딩함으로써 모델은 새로운 악기로의 일반화에 성공하였으며, 새로운 평가 없이도 그들의 감각적 유사도를 예측할 수 있었음.
스펙트럼 중심과 대역폭과 같은 오디오 디스크립터는 비선형적인 전반적 위상 구조가 존재하더라도 잠복 차원을 따라 국소적으로 부드럽게 변화함.
제안된 디스크립터 기반 경로 합성 알고리즘은 목표 디스크립터 형태를 잘 따르는 오디오 경로를 성공적으로 생성하였고, 감각적 부드러움과 음색의 구조를 유지함.
이 방법은 단일 소스 악기에서부터 직관적인 디스크립터 유도 오디오 생성이 가능한, 특정 음색 특성에 대한 제어를 가능하게 함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.