[논문 리뷰] AudioGen: Textually Guided Audio Generation
AudioGen은 텍스트를 조건으로 고충실도 오디오를 생성하는 자기회귀 모델로, 이산 오디오 표현을 학습하고 분류기-프리 가이던스 및 다중 스트림 전략으로 효율성과 구성 가능성을 달성합니다.
We tackle the problem of generating audio samples conditioned on descriptive text captions. In this work, we propose AaudioGen, an auto-regressive generative model that generates audio samples conditioned on text inputs. AudioGen operates on a learnt discrete audio representation. The task of text-to-audio generation poses multiple challenges. Due to the way audio travels through a medium, differentiating ``objects'' can be a difficult task (e.g., separating multiple people simultaneously speaking). This is further complicated by real-world recording conditions (e.g., background noise, reverberation, etc.). Scarce text annotations impose another constraint, limiting the ability to scale models. Finally, modeling high-fidelity audio requires encoding audio at high sampling rate, leading to extremely long sequences. To alleviate the aforementioned challenges we propose an augmentation technique that mixes different audio samples, driving the model to internally learn to separate multiple sources. We curated 10 datasets containing different types of audio and text annotations to handle the scarcity of text-audio data points. For faster inference, we explore the use of multi-stream modeling, allowing the use of shorter sequences while maintaining a similar bitrate and perceptual quality. We apply classifier-free guidance to improve adherence to text. Comparing to the evaluated baselines, AudioGen outperforms over both objective and subjective metrics. Finally, we explore the ability of the proposed method to generate audio continuation conditionally and unconditionally. Samples: https://felixkreuk.github.io/audiogen
연구 동기 및 목표
- 고충실도, 제어 가능성 및 구성 가능성과 함께 텍스트-오디오 생성에 대한 동기를 부여합니다.
- 학습된 이산 오디오 표현에서 작동하는 자기회귀 모델을 개발합니다.
- 사전 학습된 텍스트 인코더를 활용하여 보지 않은 텍스트 개념으로 일반화합니다.
- 가이드 및 즉시 오디오 혼합을 통해 텍스트 준수도와 구성 가능성을 개선합니다.
- 오디오 지속(조건부 및 비조건부) 기능을 보여줍니다.
제안 방법
- 원시 오디오를 재구성 및 지각 손실로 학습된 auto-encoder(E, Q, G)를 사용해 이산 시퀀스로 인코딩합니다.
- 사전 학습된 T5 텍스트 인코더와 텍스트-오디오 교차 주의 메커니즘을 활용해 텍스트로 조건화된 Transformer 기반의 오디오 언어 모델(ALM)을 학습합니다.
- 샘플링 중 분류기-프리 가이던스(CFG)를 적용하여 품질과 다양성의 균형을 맞춥니다.
- 구성 가능성과 일반화를 향상시키기 위한 즉시 텍스트 및 오디오 혼합 증강을 도입합니다.
- 시퀀스 길이를 줄이고 속도를 높이기 위해 잔여 벡터 양자화를 활용한 다중 스트림 오디오 입력을 탐색합니다.
- 목적 지표(FAD, KL)와 주관적 MOS 스타일 평가로 평가하고 DiffSound와 비교하며 CFG 및 다중 스트림 설계를 제거/제외합니다.
실험 결과
연구 질문
- RQ1자술적 텍스트로 조건화된 고충실도 오디오를 자기회귀 모델이 생성할 수 있는가?
- RQ2학습된 이산 오디오 표현을 활용하면 보지 못한 텍스트 개념에 대한 일반화가 더 잘 이루어지는가?
- RQ3분류기-프리 가이던스가 다양성은 보존하면서 텍스트 준수도를 향상시킬 수 있는가?
- RQ4즉시 텍스트-오디오 혼합이 구성 가능성과 생성 오디오의 품질을 향상시키는가?
- RQ5다중 스트림 모델링이 충실도, 비트레이트, 추론 속도에 어떤 영향을 미치는가?
주요 결과
| 모델 | 매개변수 | 증강 | 텍스트 조건화 | OVL | Rel. | FAD | KL |
|---|---|---|---|---|---|---|---|
| Reference | - | - | - | 92.08 ± 1.16 | 92.97 ± 0.85 | - | - |
| DiffSound | 400M | MBTG | CLIP | 65.68 ± 1.58 | 55.91 ± 1.75 | 7.39 | 2.57 |
| AudioGen-base | 285M | - | T5-base | 70.85 ± 1.06 | 63.23 ± 1.65 | 2.84 | 2.14 |
| AudioGen-base Mix | 285M | Mix | T5-base | 71.68 ± 1.89 | 66.01 ± 1.79 | 3.13 | 2.09 |
| AudioGen-large | 1B | Mix | T5-large | 71.85 ± 1.07 | 68.73 ± 1.61 | 1.82 | 1.69 |
- AudioGen-base는 DiffSound 기준선보다 객체적 및 주관적 지표에서 더 우수하며 파라미터 수가 더 적습니다.
- AudioGen-large는 DiffSound 및 AudioGen-base를 객체적(FAD, KL) 및 주관적(OVL, Rel.) 지표에서 추가로 능가합니다.
- Mix 기반 증강은 혼합이 없는 학습에 비해 텍스트 관련성(KL)과 구성의 복잡성을 향상시킵니다.
- gamma를 조정한 CFG는 텍스트 준수도와 샘플 품질을 향상시키며 무조건 샘플링보다 더 나은 트레이드오프를 달성합니다.
- 다중 스트림 구성은 품질에 따라 다른 속도 향상을 제공하며, 단일 스트림 기본 모델이 객관적 점수에서 가장 좋고, 다중 스트림 변형은 추론 시간 이점을 제공합니다.
- 오디오 지속 실험은 텍스트 조건에 의한 영향이 프롬프트 길이에 의해 여전히 좌우되며 짧은 프롬프트에서 조건 지속이 가능하고 짧은 오디오 프롬프트에서 더 강한 프롬프트 효과를 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.