QUICK REVIEW

[論文レビュー] OmniCodec: Low Frame Rate Universal Audio Codec with Semantic-Acoustic Disentanglement

Jingbin Hu, Haoyu Zhang|arXiv (Cornell University)|Mar 21, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

OmniCodec introduces a universal, low-frame-rate neural audio codec with semantic–acoustic decoupling, using a pre-trained understanding-model encoder for semantic supervision and a self-guidance mechanism to improve reconstruction across speech, music, and general sounds.

ABSTRACT

Large Language Models (LLMs) have advanced audio generation through discrete representation learning. However, most existing neural codecs focus on speech and emphasize reconstruction fidelity, overlooking unified low frame rate modeling across diverse audio domains, including speech, music, and general sound. Moreover, high reconstruction quality does not necessarily yield semantically informative representations, limiting effectiveness in downstream generation tasks. We propose OmniCodec, a universal neural audio codec tailored for low frame rate. It adopts a hierarchical multi-codebook design with semantic-acoustic decoupling by leveraging the audio encoder of the pre-trained understanding model, along with a self-guidance strategy to improve codebook utilization and reconstruction. Compared with the Mimi codec, experiments show that OmniCodec achieves outstanding performance at the same bitrate, delivering superior reconstruction quality while also providing more semantically informative representations that benefit downstream generation tasks. Our model and code will be open-sourced. Our demo page is available.

研究の動機と目的

多様な音声領域（スピーチ、音楽、一般的な音）に適した普遍的で低フレームレートのオーディオコーデックの必要性に対応する。
低フレームレートで高品質な再構成を維持しつつ、コーデックに semantic 情報を組み込み、後続生成タスクに有用性を提供する。
理解モデルからの事前学習済みオーディオエンコーダを活用して堅牢な semantic 表現を提供する。
自己案内機構を導入してコードブックの利用率とトレーニング安定性を向上させる。

提案手法

semantic と acoustic の二系統のストリームを持つ二枝アーキテクチャ。
Qwen3-Omni-AuT-Encoder を用いて 12.5 Hz の semantic 表現をセマンティック枝への入力として生成する。
semantic features を 2048 エントリの semantic VQ（埋め込み 1024）で離散化し、acoustic の詳細を 31 段階 RVQ（2048 コードブック，256 次元ベクトル）でモデル化する。
生成には因果的 Transformer（8 層，8 ヘッド）を用い、純粋な因果受容野を持つ。
ベクトル量子化中にコードブックを動的に EMA で更新する。
マルチスケール mel 再構成、semantic 再構成、コミットメント損失、自己案内、対立的損失（STFT, MPD/MSD/MRD）、特徴量マッチングを含む複合損失で最適化する。デフォルト重み: lit. ac_recon=15.0, self_guidance=0.1, others=1.0。

Figure 1: Overview of OmniCodec framework.

実験結果

リサーチクエスチョン

RQ1低フレームレートの普遍的コーデックは、semantic–acoustic の分離を保持しつつ、speech、music、general sounds を効果的にモデル化できるか。
RQ2事前学習済みの理解モデルからの semantic 表現を取り入れることで、低フレームレートでの再構成品質を損なうことなく下流生成の有用性を向上させられるか。
RQ3自己案内機構はコードブックの利用と再構成の安定性を領域を超えて向上させるか。
RQ4OmniCodec は従来の単一コードブック/複数コードブックのコーデックと再構成および semantic 評価の面でどう比較されるか。
RQ5多様な音声領域間で semantic の保持と再構成を最適化するデータ領域の混合はどのようなものか。

主な発見

OmniCodec は、Mimi コーデックを含むいくつかのベースラインと比較して、同じビットレートで speech、music、general sound の再構成品質が優れている。
12.5 Hz のフレームレートで、OmniCodec の変種は高フレームレートの単一コードブックモデルをいくつかの指標（STOI、Mel距離、MCD など）で上回る。
事前学習済みの Qwen3-Omni-AuT-Encoder からの semantic 表現は、Mimi コーデックと比較して music および general sound ドメインの semantic 評価（PPL）を改善するものの、speech ドメインの結果は WaveLM のアーキテクチャの影響で微妙。
自己案内損失はコードブックの利用と再構成品質を向上させる。semantic 枝または自己案内を欠くと、さまざまな指標で性能が低下する。
アブレーションにより、データのドメイン比率が semantic 保持に影響を与え、分離型アダプタとドメイン横断データが全体的な性能を改善することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。