[논문 리뷰] HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
HiFi-Codec는 그룹-잔차 벡터 양자화를 사용하여 4개의 코드북만으로 높은 충실도 오디오 재구성을 달성하고 Encodec를 능가하며 AcademiCodec를 출시하며 학습 코드 및 사전 학습 모델을 제공한다.
Audio codec models are widely used in audio communication as a crucial technique for compressing audio into discrete representations. Nowadays, audio codec models are increasingly utilized in generation fields as intermediate representations. For instance, AudioLM is an audio generation model that uses the discrete representation of SoundStream as a training target, while VALL-E employs the Encodec model as an intermediate feature to aid TTS tasks. Despite their usefulness, two challenges persist: (1) training these audio codec models can be difficult due to the lack of publicly available training processes and the need for large-scale data and GPUs; (2) achieving good reconstruction performance requires many codebooks, which increases the burden on generation models. In this study, we propose a group-residual vector quantization (GRVQ) technique and use it to develop a novel extbf{Hi}gh extbf{Fi}delity Audio Codec model, HiFi-Codec, which only requires 4 codebooks. We train all the models using publicly available TTS data such as LibriTTS, VCTK, AISHELL, and more, with a total duration of over 1000 hours, using 8 GPUs. Our experimental results show that HiFi-Codec outperforms Encodec in terms of reconstruction performance despite requiring only 4 codebooks. To facilitate research in audio codec and generation, we introduce AcademiCodec, the first open-source audio codec toolkit that offers training codes and pre-trained models for Encodec, SoundStream, and HiFi-Codec. Code and pre-trained model can be found on: \href{https://github.com/yangdongchao/AcademiCodec}{https://github.com/yangdongchao/AcademiCodec}
연구 동기 및 목표
- 신경 오디오 코덱에서 적은 코드북으로 높은 재구성 품질을 달성하는 문제를 다룬다.
- 초기 코드북에서 정보 보존을 개선하기 위해 그룹 잔차 벡터 양자화(GRVQ)를 제안한다.
- 공개 TTS 데이터에서 HiFi-Codec의 재구성 성능을 시연한다.
- 엔코드, SoundStream, HiFi-Codec를 위한 연구 촉진용 오픈소스 도구 모음(AcademiCodec)을 출시한다.
제안 방법
- GRVQ를 도입하는 방식은 잠재 특징을 두 그룹으로 분할하고 각 그룹에 RVQ를 적용한 뒤 결과를 연결(concatenate)한다.
- Encodec와 SoundStream에서 영감을 받은 인코더-디코더 아키텍처를 설계하되 다층 컨볼루션 블록과 시퀀스 모델링용 LSTM을 포함한다.
- GAN 기반 목표로 학습하며 시간 영역, 시간-주파수 재구성 손실 및 다중 구분자(MS-STFT, MPD, MSD)를 통한 지각 손실을 결합한다.
- GRVQ 커밋먼트 손실을 도입하여 코드북 사용을 안정화하고 첫 번째 계층 양자화기의 정보성을 촉진한다.
- 다양한 코드북 수와 다운샘플 설정에서 PESQ와 STOI를 사용해 Encodec 및 SoundStream과 비교 평가한다.
실험 결과
연구 질문
- RQ1GRVQ가 기존 RVQ 기반 코덱에 비해 더 적은 코드북으로 경쟁력 있거나 더 우수한 재구성 품질을 달성할 수 있는가?
- RQ2그룹 수, 그룹당 코드북 수, 다운샘플링 등 어떤 구성(configuration)이 품질과 모델 부담 사이의 최적의 타협을 제공하는가?
- RQ3다수의 샘플링 레이트와 설정에서 HiFi-Codec가 표준 TTS 데이터셋에서 Encodec 및 SoundStream에 비해 어떤 성능을 보이는가?
주요 결과
| Method | Sample rate (K Hz) | Down-sample times | Number of codebooks | PESQ ↑ | STOI ↑ |
|---|---|---|---|---|---|
| Encodec (Facebook) | 24 | 320 | 8 | 3.01 | 0.94 |
| Encodec (Facebook) | 24 | 320 | 12 | 3.21 | 0.95 |
| Encodec (ours) | 24 | 240 | 8 | 3.62 | 0.94 |
| Encodec (ours) | 24 | 32 | 2 | 3.08 | 0.91 |
| Encodec (ours) | 16 | 320 | 8 | 3.04 | 0.93 |
| SoundStream (ours) | 16 | 320 | 12 | 3.26 | 0.95 |
| HiFi-Codec | 24 | 240 | 4 | 3.63 | 0.95 |
| HiFi-Codec | 24 | 240 | 8 | 3.92 | 0.95 |
| HiFi-Codec | 24 | 320 | 4 | 3.64 | 0.95 |
| HiFi-Codec | 16 | 320 | 4 | 3.22 | 0.94 |
- HiFi-Codec은 4개의 코드북과 240 다운샘플로 강한 재구성을 달성한다.
- HiFi-Codec의 최고 결과: 24 kHz에서 240 다운샘플 및 4 코드북으로 PESQ 3.63, STOI 0.95.
- 더 높은 코드북 수(8)는 동일 설정에서 PESQ를 3.92로 개선할 수 있으며 STOI는 0.95 유지.
- Encodec 벤치마크와 비교할 때 4 또는 8 코드북을 가진 HiFi-Codec 변형은 경쟁력 있는 PESQ와 STOI를 보이며 때로는 더 많은 코드북을 가진 Encodec 구성보다 우수한 경우도 있다.
- 생성 작업의 경우 재구성 성능이 유리하므로 4 코드북의 HiFi-Codec 사용을 권장한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.