[논문 리뷰] It's Raw! Audio Generation with State-Space Models
SSM 기반 다중 스케일 파형 모델인 SaShiMi가 자가회귀 생성을 위한 S4를 안정화하고 최첨단 무조건 오디오 생성을 달성하는 한편, 비자가회귀(diffusion-based) 확산 기반 생성도 향상시킨다.
Developing architectures suitable for modeling raw audio is a challenging problem due to the high sampling rates of audio waveforms. Standard sequence modeling approaches like RNNs and CNNs have previously been tailored to fit the demands of audio, but the resultant architectures make undesirable computational tradeoffs and struggle to model waveforms effectively. We propose SaShiMi, a new multi-scale architecture for waveform modeling built around the recently introduced S4 model for long sequence modeling. We identify that S4 can be unstable during autoregressive generation, and provide a simple improvement to its parameterization by drawing connections to Hurwitz matrices. SaShiMi yields state-of-the-art performance for unconditional waveform generation in the autoregressive setting. Additionally, SaShiMi improves non-autoregressive generation performance when used as the backbone architecture for a diffusion model. Compared to prior architectures in the autoregressive generation setting, SaShiMi generates piano and speech waveforms which humans find more musical and coherent respectively, e.g. 2x better mean opinion scores than WaveNet on an unconditional speech generation task. On a music generation task, SaShiMi outperforms WaveNet on density estimation and speed at both training and inference even when using 3x fewer parameters. Code can be found at https://github.com/HazyResearch/state-spaces and samples at https://hazyresearch.stanford.edu/sashimi-examples.
연구 동기 및 목표
- 전역 일관된 생성을 갖춘 고속 원시 오디오 모델링의 도전을 다룬다.
- 자가회귀 생성을 위한 안정성 개선이 적용된 다중 스케일 S4 기반 아키텍처 SaShiMi를 제안한다.
- 무조건적 AR 오디오 작업에서 SaShiMi의 우수성과 비 AR 확산 모델의 백본으로서의 가능성을 입증한다.
제안 방법
- 장기 맥락 파형 모델링의 핵심 빌딩 블록으로 S4 상태공간 모델을 사용한다.
- Hurwitz 호환성(Lambda - p p^*)으로 A를 매개변수화하여 자가회귀 생성용 S4를 안정화한다.
- 크로스 스케일 구조를 포착하기 위해 S4 블록 간 다중 스케일 풀링을 도입한다.
- 비자가회귀(non-AR) 능력을 향상시키기 위해 S4의 양방향 이완을 가능하게 한다.
- 전방향 및 역방향 S4 출력을 연결하여 비 AR 작업을 위한 간단한 양방향 S4 변형을 사용 가능하게 한다.
- DiffWave에서 WaveNet을 대체하여 SaShiMi를 확산 모델의 백본으로 시연한다.
실험 결과
연구 질문
- RQ1SSM 기반 아키텍처가 적절한 안정성 보장을 제공할 때 WaveNet이나 SampleRNN보다 무한한 오디오 맥락을 더 효과적으로 모델할 수 있는가?
- RQ2다중 스케일 풀링 전략이 자가회귀 오디오 생성의 모델링 품질과 효율성을 향상시키는가?
- RQ3SaShiMi가 확산 기반 파형 생성의 강력한 비자AR 백본으로 작용할 수 있는가?
- RQ4양방향 S4가 비 AR 생성 성능에 미치는 영향은 인과적 S4와 비교해 어떤 차이가 있는가?
- RQ5롱 컨텍스트 오디오 생성에서 매개변수 수, 학습 속도 및 추론 속도 측면에서 베이스라인과의 트레이드오프는 무엇인가?
주요 결과
- SaShiMi는 무조건 음악 및 음성 생성에서 선도적 AR 베이스라인(SampleRNN, WaveNet)을 능가하며, 더 나은 가능도와 더 긴 맥락 처리 능력을 보인다.
- Beethoven 및 YouTubeMix 데이터셋에서 SaShiMi는 baselines보다 낮은 NLL과 더 높은 MOS/품질 지표를 달성하고, 더 긴 컨텍스트 훈련(예: 컨텍스트 길이가 최대 128k 스텝)도 가능하다.
- SC09 무조건 대화 생성에서 SaShiMi는 WaveNet 기반 모델에 비해 인간이 인지하는 품질과 이해도 점수가 크게 높다.
- DiffWave의 백본으로 SaShiMi를 WaveNet 대신 사용하면 추가 튜닝 없이도 확산 기반 비자 AR 생성에서 최첨단 결과를 달성한다.
- 안정화된 S4 매개변수화(Lambda - p p^*)는 원래 S4 공식에서 관찰된 불안정성을 해결하며 안정적인 자가회귀 생성이 가능하게 한다.
- 아키텍처의 다중 스케일 풀링은 등방성 S4 스택에 비해 계산 및 모델링 이점을 제공하며, 동등하거나 더 나은 품질로 더 빠른 학습 및 추론을 가능하게 한다.
- 양방향 S4는 비자AR 성능을 향상시키며 단방향 구성보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.