QUICK REVIEW

[논문 리뷰] SING: Symbol-to-Instrument Neural Generator

Alexandre Défossez, Neil Zeghidour|arXiv (Cornell University)|2018. 10. 23.

Speech and Audio Processing인용 수 26

한 줄 요약

SING은 전체 1024샘플 오디오 프레임을 한 번에 예측함으로써 악기, 톤, 속도 조건에서 고음질 음절을 생성하는 경량의 비자기적 신경 오디오 합성 모델이다. 로그 스펙트로그램에 기반한 새로운 스펙트럼 손실을 사용하여 NSynth 데이터셋에서 최신의 청각적 품질을 달성하였으며, WaveNet 기반 자동에코더 기준 대비 훈련 속도 32배 빠르고 추론 속도 2,500배 빠르다.

ABSTRACT

Recent progress in deep learning for audio synthesis opens the way to models that directly produce the waveform, shifting away from the traditional paradigm of relying on vocoders or MIDI synthesizers for speech or music generation. Despite their successes, current state-of-the-art neural audio synthesizers such as WaveNet and SampleRNN suffer from prohibitive training and inference times because they are based on autoregressive models that generate audio samples one at a time at a rate of 16kHz. In this work, we study the more computationally efficient alternative of generating the waveform frame-by-frame with large strides. We present SING, a lightweight neural audio synthesizer for the original task of generating musical notes given desired instrument, pitch and velocity. Our model is trained end-to-end to generate notes from nearly 1000 instruments with a single decoder, thanks to a new loss function that minimizes the distances between the log spectrograms of the generated and target waveforms. On the generalization task of synthesizing notes for pairs of pitch and instrument not seen during training, SING produces audio with significantly improved perceptual quality compared to a state-of-the-art autoencoder based on WaveNet as measured by a Mean Opinion Score (MOS), and is about 32 times faster for training and 2, 500 times faster for inference.

연구 동기 및 목표

자기적 생성을 회피함으로써 훈련 및 추론 속도를 높이는 계산 효율적인 신경 오디오 합성 모델을 개발하는 것.
거의 1,000종의 악기, 65음도, 5속도 조합을 위한 단일 모델을 통합 학습 가능한 합성 모델을 제공하는 것.
기존 자동에코더 기반 방법보다 청각적 품질을 향상시키면서도 계산 비용을 크게 감소시키는 것.
새로운 스펙트럼 손실 함수를 통해 저차원 잠재 공간에서 음고, 악기, 속도를 분리하는 것.

제안 방법

모델은 각 오디오 프레임의 악기, 음고, 속도를 잠재 표현으로 인코딩하기 위해 3층의 LSTM을 사용한다.
단일 4층 컨볼루션 디코더가 한 번의 순방향 전파로 잠재 표현에서 1024샘플 오디오 프레임을 생성한다.
새로운 스펙트럼 손실은 생성된 파형과 목표 파형의 로그 파wer 스펙트로그램 간의 1노름을 계산하여 위상에 영향을 받지 않는 훈련을 가능하게 한다.
LSTM은 원시 파형을 동일한 스펙트럼 손실로 재구성하는 사전 학습된 컨볼루션 자동에코더를 사용해 초기화된다.
스펙트럼 손실을 통해 역전파를 수행함으로써 인코더와 디코더의 공동 최적화를 가능하게 하는 엔드 투 엔드 학습이 수행된다.
자연스러움과 정밀도를 평가하기 위해 인간 청각 테스트(MOS)와 ABX 유사도 작업을 통해 모델을 평가한다.

실험 결과

연구 질문

RQ1비자기적, 프레임 단위 오디오 생성 모델이 자기적 WaveNet 기반 모델과 유사한 청각적 품질을 달성할 수 있는가?
RQ2로그 스펙트로그램에 기반한 스펙트럼 손실이 후처리 없이 효과적이고 위상에 영향을 받지 않는 훈련을 가능하게 하는가?
RQ3단일 디코더 모델이 추론 시에 훈련 중에 보지 못한 악기와 음고 조합에 일반화할 수 있는가?
RQ4모델이 잠재 표현에서 음고, 악기, 속도를 어느 정도 분리하는가?

주요 결과

SING은 평균 의견 점수(MOS) 3.55 ± 0.23을 기록하여 WaveNet 기반 자동에코더 기준(2.85 ± 0.24)보다 유의미하게 높은 청각적 품질을 확보하였다.
SING은 훈련 속도가 32배 빠르고(120시간*GPU 대비 3840시간*GPU), 오디오 생성 속도가 2,500배 빠르다(512초/초 대비 0.2초/초).
ABX 유사도 테스트에서 69.7%의 인간 평가자가 SING 출력을 WaveNet 기준보다 선호하여 실제 음절에 대한 정밀도가 높음을 시사한다.
모델은 압축 비율 2133를 달성하여 원본 파형에 비해 훨씬 적은 잠재 차원으로 오디오 시퀀스를 표현한다.
SING의 모델 크기(243MB)는 WaveNet 기반 기준(948MB)보다 4배 이상 작아 메모리 효율성이 향상되었다.
모델은 훈련 중에 볼 수 없었던 악기-음고 조합에 대해서도 음절을 성공적으로 합성하여 강력한 일반화 능력을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.