[論文レビュー] HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec
HiFi-Codec は group-residual vector quantization を用いて、4 つのコードブックのみで高忠実度な音声再構成を達成し、Encodec を上回る。AcademiCodec を訓練コードと事前訓練済みモデルとともに公開。
Audio codec models are widely used in audio communication as a crucial technique for compressing audio into discrete representations. Nowadays, audio codec models are increasingly utilized in generation fields as intermediate representations. For instance, AudioLM is an audio generation model that uses the discrete representation of SoundStream as a training target, while VALL-E employs the Encodec model as an intermediate feature to aid TTS tasks. Despite their usefulness, two challenges persist: (1) training these audio codec models can be difficult due to the lack of publicly available training processes and the need for large-scale data and GPUs; (2) achieving good reconstruction performance requires many codebooks, which increases the burden on generation models. In this study, we propose a group-residual vector quantization (GRVQ) technique and use it to develop a novel \textbf{Hi}gh \textbf{Fi}delity Audio Codec model, HiFi-Codec, which only requires 4 codebooks. We train all the models using publicly available TTS data such as LibriTTS, VCTK, AISHELL, and more, with a total duration of over 1000 hours, using 8 GPUs. Our experimental results show that HiFi-Codec outperforms Encodec in terms of reconstruction performance despite requiring only 4 codebooks. To facilitate research in audio codec and generation, we introduce AcademiCodec, the first open-source audio codec toolkit that offers training codes and pre-trained models for Encodec, SoundStream, and HiFi-Codec. Code and pre-trained model can be found on: \href{https://github.com/yangdongchao/AcademiCodec}{https://github.com/yangdongchao/AcademiCodec}
研究の動機と目的
- ニューラル音声コーデックにおける少数コードブックでの高再構成品質の課題に対処する。
- 初期コードブックで情報の保持を改善するために GRVQ(グループ残差ベクトル量子化)を提案する。
- 公開データセットの TTS データに対する HiFi-Codec の再構成性能を実証する。
- 研究促進のため Encodec、SoundStream、HiFi-Codec 用のオープンソースツール(AcademiCodec)を公開する。
提案手法
- 潜在特徴を2つのグループに分割し、それぞれに RVQ を適用して結果を結合することで GRVQ を導入する。
- Encodec および SoundStream に触発されたエンコーダ-デコーダアーキテクチャを設計し、マルチレイヤ畳み込みブロックと系列モデリングのための LSTM を組み込む。
- 時間領域の再構成損失と時間周波数再構成損失、複数の識別器(MS-STFT、MPD、MSD)を介する知覚損失を組み合わせた GAN ベースの目的で訓練する。
- コードブックの使用を安定化し第一層の量子化器を情報量豊かにする GRVQ コミットメント損失を導入する。
- コードブック数とダウンサンプリング設定を変えた場合の PESQ および STOI を用いて Encodec および SoundStream と比較評価する。
実験結果
リサーチクエスチョン
- RQ1GRVQ は既存の RVQ ベースのコーデックと比較して、少数のコードブックでも競争力のあるまたは優れた再構成品質を達成できるか。
- RQ2品質とモデル負荷の最適なトレードオフを生み出す設定(グループ数、各グループのコードブック数、ダウンサンプリング)はどれか。
- RQ3HiFi-Codec は標準的な TTS データセットで複数のサンプルレートと設定において Encodec および SoundStream に対してどの程度の性能を示すか。
主な発見
| 方法 | サンプルレート (K Hz) | ダウンサンプル回数 | コードブックの数 | PESQ ↑ | STOI ↑ |
|---|---|---|---|---|---|
| Encodec (Facebook) | 24 | 320 | 8 | 3.01 | 0.94 |
| Encodec (Facebook) | 24 | 320 | 12 | 3.21 | 0.95 |
| Encodec (ours) | 24 | 240 | 8 | 3.62 | 0.94 |
| Encodec (ours) | 24 | 32 | 2 | 3.08 | 0.91 |
| Encodec (ours) | 16 | 320 | 8 | 3.04 | 0.93 |
| SoundStream (ours) | 16 | 320 | 12 | 3.26 | 0.95 |
| HiFi-Codec | 24 | 240 | 4 | 3.63 | 0.95 |
| HiFi-Codec | 24 | 240 | 8 | 3.92 | 0.95 |
| HiFi-Codec | 24 | 320 | 4 | 3.64 | 0.95 |
| HiFi-Codec | 16 | 320 | 4 | 3.22 | 0.94 |
- HiFi-Codec は 4 コードブックと 240 ダウンサンプルで強力な再構成を実現。
- 24 kHz・240 ダウンサンプル・4 コードブックでの最高報告結果は PESQ 3.63、STOI 0.95。
- コードブック数を増やして 8 にすると同じ設定で PESQ が 3.92 へ向上でき、STOI は 0.95 を維持。
- Encodec のベースラインと比較して、4 または 8 コードブックの HiFi-Codec 系は競争力のある PESQ および STOI を示し、時にはより多くのコードブックを用いた Encodec 槟の構成を上回る。
- 生成タスクでの再構成性能が有利であるため、4 コードブックでの使用を推奨する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。