QUICK REVIEW

[논문 리뷰] TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer

Sicong Huang, Qiyang Li|arXiv (Cornell University)|2018. 11. 22.

Music and Audio Processing인용 수 67

한 줄 요약

TimbreTron은 CycleGAN으로 로그-CQT 스펙트로그램에 이미지 스타일 전달을 적용한 다음 조건부 WaveNet으로 고품질 오디오를 재구성하며, CQT 기반 음색 전달이 컨텐츠 보존 측면에서 STFT 기반 접근법보다 우수하다는 것을 보여준다.

ABSTRACT

In this work, we address the problem of musical timbre transfer, where the goal is to manipulate the timbre of a sound sample from one instrument to match another instrument while preserving other musical content, such as pitch, rhythm, and loudness. In principle, one could apply image-based style transfer techniques to a time-frequency representation of an audio signal, but this depends on having a representation that allows independent manipulation of timbre as well as high-quality waveform generation. We introduce TimbreTron, a method for musical timbre transfer which applies "image" domain style transfer to a time-frequency representation of the audio signal, and then produces a high-quality waveform using a conditional WaveNet synthesizer. We show that the Constant Q Transform (CQT) representation is particularly well-suited to convolutional architectures due to its approximate pitch equivariance. Based on human perceptual evaluations, we confirmed that TimbreTron recognizably transferred the timbre while otherwise preserving the musical content, for both monophonic and polyphonic samples.

연구 동기 및 목표

시간-주파수 표현에 대한 이미지 스타일 전달 문제로서의 음악적 음색 전달 동기화.
피치 등가 컨볼루션을 지원하는 공간으로서 Constant Q Transform(CQT)의 탐색 및 음색 조작.
세 단계 TimbreTron 파이프라인 개발: CQT 추출, 로그-CQT 도메인에서의 CycleGAN 기반 음색 전달, WaveNet 기반 파형 재구성.
CQT 기반 TimbreTron이 STFT 기반 변형들보다 인간 연구를 통해 지각적으로 더 나은 음색 전달을 제공함을 보여줌.

제안 방법

오디오로부터 로그-크기 CQT 스펙트로그램을 계산하고 이를 스타일 전달용 이미지로 취급합니다.
로그-CQT 도메인에서 음색 전달을 위해 전체 스펙트로그램 구분기 discriminate, 그래디언트 페널티, 아이덴티티 손실을 포함한 CycleGAN을 적용합니다.
생성된 로그-CQT에서 파형을 재구성하기 위해 최근접 이웃 업샘플링과 mu-law 양자화를 사용하는 40층 조건부 WaveNet을 학습합니다.
생성된 CQT에 더 잘 맞도록 대상 CQT를 추적하기 위해 빔 서치를 사용하는 AR WaveNet으로 오디오를 생성합니다.
향상된 시작부 아티팩트를 줄이기 위해 순방향 생성 중에 역순으로 파형을 생성하는 것도 옵션으로 제공합니다.

실험 결과

연구 질문

RQ1CQT 기반 표현이 피치, 리듬, 음량을 보존하면서 악기 간의 정확한 음색 전달을 촉진할 수 있는가?
RQ2로그-CQT 스펙트로그램에서 CycleGAN 기반 음색 전달이 perceptual 품질 측면에서 STFT 기반 접근보다 우수한가?
RQ3생성된 로그-CQT 표현에서 WaveNet 보코더가 고품질 오디오를 재구성하는 데 얼마나 잘 작동하는가?
RQ4TimbreTron 파이프라인이 악기 쌍 간 일반화 및 MIDI에서 실제 오디오로의 일반화에 대해 잘 작동하는가?
RQ5CycleGAN 구성요소의 어떤 변형이 음색 전달 품질과 음악적 콘텐츠 보존에 영향을 미치는가?

주요 결과

TimbreTron은 모노포닉 및 폴리포닉 케이스 모두에서 음악적 콘텐츠를 보존하며 식별 가능한 음색 전달을 달성한다.
CQT 기반 TimbreTron은 인간 연구에서 STFT 기반 변형들보다 품질적으로 더 나은 음색 전달을 보인다.
전 스펙트로그램 구분기, 그래디언트 페널티 및 아이덴티티 손실의 연구에서 개선이 관찰된다.
CQT 표현은 STFT보다 피치 전달과 음색 조작을 더 안정적으로 가능하게 하며 피치 순열 아티팩트를 덜 발생시킨다.
학습은 MIDI 데이터에서의 일반화 및 실제 오디오 테스트에서 타당한 전달을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.