[논문 리뷰] SoundStorm: Efficient Parallel Audio Generation
SoundStorm 은 비자회귀의 RVQ 인식 오디오 생성기로, 의미 토큰에 조건을 걸어 AudioLM 수준의 품질의 오디오를 생성하되 두 자릿수 배 빠르게 수행되어 긴 형식 대화 합성 및 확장 가능한 병렬 디코딩을 가능하게 한다.
We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.
연구 동기 및 목표
- RVQ 토큰 시퀀스에서의 자기 주의(attention)의 이차적 비용을 해결하여 효율적인 장기 시퀀스 오디오 생성을 도모한다.
- 계층적 RVQ 구조를 활용한 병렬, 레벨별 토큰 예측을 위한 아키텍처와 학습 체계를 개발한다.
- AudioLM의 드롭인 음향 생성기 대체를 가능하게 하고 제어된 프롬프트를 이용한 다중 화자 대화 합성을 시연한다.
제안 방법
- AudioLM의 의미 토큰에 조건부로 다중 수준 RVQ 토큰을 예측하기 위해 양방향 Conformer를 사용한다.
- 컨디셔닝 토큰을 SoundStream 프레임 토큰과 교차 배치하고 프레임당 임베딩을 합산하며, 각 RVQ 레벨마다 전용 출력 헤드를 사용한다.
- MaskGIT에서 영감을 받은 마스킹 및 신뢰도 기반 반복 디코딩을 RVQ 레벨에 확장하고 거칠은-정밀한 레벨별 진행을 적용한다.
- 추론을 모방하는 마스킹 방식으로 학습한다: RVQ 레벨을 샘플링하고 해당 레벨과 모든 더 세부 레벨의 토큰 일부를 마스킹하며, 그 레벨에서 마스킹된 토큰에 대해서만 손실을 계산한다.
- RVQ 레벨당 여러 회의 반복으로 디코딩하고, 마스킹된 위치마다 신뢰도 점수에 따라 여러 후보를 샘플링하며, 각 레벨의 최종 반복에서는 그리디 디코딩을 사용한다.
실험 결과
연구 질문
- RQ1RVQ 토큰 시퀀스의 병렬 비자회귀 디코딩이 합성 시간을 크게 줄이면서 AudioLM과 유사한 오디오 품질을 달성할 수 있는가?
- RQ2계층적 RVQ 구조를 레벨별 마스킹 및 디코딩으로 활용하는 것이 장기 음향의 일관성과 음성 보존을 향상시키는가?
- RQ3SoundStorm가 제어된 화자 프롬프트와 전사로 자연스러운 다회 대화 합성을 어느 정도까지 가능하게 할까?
주요 결과
- SoundStorm은 AudioLM의 음향 생성기와 비교할 만한 음질을 달성하면서도 더 높은 음향 일관성과 더 나은 음성 보존성을 제공한다.
- SoundStorm은 AudioLM의 자기회귀 음향 생성기에 비해 두 자릿수 배 빠르며, TPU-v4에서 30초 길이의 오디오 합성이 약 0.5초에 이루어진다.
- 대화 합성 실험에서 SoundStorm은 프롬프트 제어 화자 정체성과 음성 내용을 가진 자연스러운 다회 대화를 가능하게 하며, 전체 30초 합성이 약 2초 정도이다.
- 마스킹 기반의 레벨별 디코딩 스킴은 RVQ 레벨 내에서 여러 토큰을 병렬로 생성하게 하여 계산을 줄이면서 품질을 유지한다.
- 오디오 품질 추정(MOS)은 SoundStorm이 AudioLM과 동등한 수준임을 보여주고; WER/CER 지표는 여러 설정에서 AudioLM 기준보다 더 나은 말하기 이해도를 나타낸다.
- 특히 더 긴 오디오 시퀀스에서 SoundStorm은 AudioLM에 비해 음향 일관성 편차가 감소한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.