[论文解读] HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
HiFi-Codec 使用分组残差向量量化,在只有 4 个码本的情况下实现高保真音频重建,超越 Encodec,并公开 AcademiCodec 的训练代码和预训练模型。
Audio codec models are widely used in audio communication as a crucial technique for compressing audio into discrete representations. Nowadays, audio codec models are increasingly utilized in generation fields as intermediate representations. For instance, AudioLM is an audio generation model that uses the discrete representation of SoundStream as a training target, while VALL-E employs the Encodec model as an intermediate feature to aid TTS tasks. Despite their usefulness, two challenges persist: (1) training these audio codec models can be difficult due to the lack of publicly available training processes and the need for large-scale data and GPUs; (2) achieving good reconstruction performance requires many codebooks, which increases the burden on generation models. In this study, we propose a group-residual vector quantization (GRVQ) technique and use it to develop a novel extbf{Hi}gh extbf{Fi}delity Audio Codec model, HiFi-Codec, which only requires 4 codebooks. We train all the models using publicly available TTS data such as LibriTTS, VCTK, AISHELL, and more, with a total duration of over 1000 hours, using 8 GPUs. Our experimental results show that HiFi-Codec outperforms Encodec in terms of reconstruction performance despite requiring only 4 codebooks. To facilitate research in audio codec and generation, we introduce AcademiCodec, the first open-source audio codec toolkit that offers training codes and pre-trained models for Encodec, SoundStream, and HiFi-Codec. Code and pre-trained model can be found on: \href{https://github.com/yangdongchao/AcademiCodec}{https://github.com/yangdongchao/AcademiCodec}
研究动机与目标
- 解决在神经音频编解码器中用较少码本实现高重建质量的挑战。
- 提出分组残差向量量化(GRVQ)以改善前阶段码本的信息保留。
- 在公开的 TTS 数据上展示 HiFi-Codec 的重建性能。
- 发布 Encodec、SoundStream 与 HiFi-Codec 的开源工具链(AcademiCodec),以促进研究。
提出的方法
- 通过将潜在特征分成两组并在连接结果前对每组分别应用 RVQ 来引入 GRVQ。
- 设计受 Encodec 与 SoundStream 启发的编码器-解码器架构,包括多层卷积块和用于序列建模的 LSTM。
- 使用基于 GAN 的目标函数进行训练,结合时域、时频重建损失,以及通过多个判别器(MS-STFT、MPD、MSD)的感知损失。
- 引入 GRVQ 的承诺损失以稳定码本使用并鼓励信息丰富的第一层量化器。
- 在不同码本数量和下采样设置下,使用 PESQ 和 STOI 进行评估,并与 Encodec 和 SoundStream 进行对比。
实验结果
研究问题
- RQ1GRVQ 能否在比现有基于 RVQ 的编解码器更少码本的情况下实现具有竞争力或更优的重建质量?
- RQ2哪种配置(分组数量、每组码本数量、下采样)在质量与模型负担之间达到最佳折衷?
- RQ3在标准的 TTS 数据集上,HiFi-Codec 在多种采样率和设置下的表现相对于 Encodec 与 SoundStream 如何?
主要发现
| 方法 | 采样率 (K Hz) | 下采样次数 | 码本数量 | PESQ ↑ | STOI ↑ |
|---|---|---|---|---|---|
| Encodec (Facebook) | 24 | 320 | 8 | 3.01 | 0.94 |
| Encodec (Facebook) | 24 | 320 | 12 | 3.21 | 0.95 |
| Encodec (ours) | 24 | 240 | 8 | 3.62 | 0.94 |
| Encodec (ours) | 24 | 32 | 2 | 3.08 | 0.91 |
| Encodec (ours) | 16 | 320 | 8 | 3.04 | 0.93 |
| SoundStream (ours) | 16 | 320 | 12 | 3.26 | 0.95 |
| HiFi-Codec | 24 | 240 | 4 | 3.63 | 0.95 |
| HiFi-Codec | 24 | 240 | 8 | 3.92 | 0.95 |
| HiFi-Codec | 24 | 320 | 4 | 3.64 | 0.95 |
| HiFi-Codec | 16 | 320 | 4 | 3.22 | 0.94 |
- HiFi-Codec 仅用 4 个码本和 240 次下采样就实现了强重建。
- HiFi-Codec 在 24 kHz、240 下采样且 4 个码本时的最佳结果:PESQ 3.63 与 STOI 0.95。
- 更高的码本数量(8)在相同设置下可将 PESQ 提升至 3.92,STOI 0.95 保持不变。
- 与 Encodec 基线相比,4 或 8 码本的 HiFi-Codec 变体在 PESQ 与 STOI 方面具有竞争力,有时甚至超过具有更多码本的 Encodec 配置。
- 论文建议在生成任务中使用 4 码本的 HiFi-Codec,因为重建性能更有利。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。