QUICK REVIEW

[논문 리뷰] OmniCodec: Low Frame Rate Universal Audio Codec with Semantic-Acoustic Disentanglement

Jingbin Hu, Haoyu Zhang|arXiv (Cornell University)|2026. 03. 21.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

OmniCodec은 프레임 속도가 낮은 보편적 신경망 오디오 코덱으로, 의미-음향 분리(semanic–acoustic decoupling)를 갖추고, 사전 학습된 이해 모델 인코더를 의미 감독으로 활용하며 자기 지도(self-guidance) 메커니즘으로 음성, 음악 및 일반 소리 전반에 걸친 재구성 개선을 달성합니다.

ABSTRACT

Large Language Models (LLMs) have advanced audio generation through discrete representation learning. However, most existing neural codecs focus on speech and emphasize reconstruction fidelity, overlooking unified low frame rate modeling across diverse audio domains, including speech, music, and general sound. Moreover, high reconstruction quality does not necessarily yield semantically informative representations, limiting effectiveness in downstream generation tasks. We propose OmniCodec, a universal neural audio codec tailored for low frame rate. It adopts a hierarchical multi-codebook design with semantic-acoustic decoupling by leveraging the audio encoder of the pre-trained understanding model, along with a self-guidance strategy to improve codebook utilization and reconstruction. Compared with the Mimi codec, experiments show that OmniCodec achieves outstanding performance at the same bitrate, delivering superior reconstruction quality while also providing more semantically informative representations that benefit downstream generation tasks. Our model and code will be open-sourced. Our demo page is available.

연구 동기 및 목표

다양한 오디오 도메인(음성, 음악, 일반 소리)에 적합한 보편적 저 프레임 속도 오디오 코덱의 필요성 해소.
코덱에 의미 정보를 통합하여 낮은 프레임 속도에서도 다운스트림 생성 작업의 유용성을 유지하면서 재구성 품질을 향상.
이해 모델의 사전 학습된 오디오 인코더를 활용하여 강 robust 의미 표현을 제공.
코드북 활용도 및 학습 안정성을 개선하기 위한 자기 지도(self-guidance) 메커니즘 도입

제안 방법

의미 스트림과 음향 스트림의 이중 분기 아키텍처.
Qwen3-Omni-AuT-Encoder를 사용하여 12.5 Hz의 의미 표현을 생성하고 의미 분기에 입력으로 사용.
의미 특징을 2048-entry 의미 VQ(임베딩 1024)로 이산화하고, 음향 세부 정보를 31-스테이지 RVQ(2048 코드북, 256-d 벡터)로 모델링.
순행 인과 Transformer(8 레이어, 8 헤드)를 이용한 순수 인과 수용영역으로 생성.
벡터 양자화 중 코드북 업데이트에 이동 EMA를 적용.
다중 스케일 Mel 재구성, 의미 재구성, 약정 손실, 자기 지도, 적대적 손실(STFT, MPD/MSD/MRD), 특징 매칭을 포함한 복합 손실 최적화; 기본 가중치: lit. ac_recon=15.0, self_guidance=0.1, others=1.0

Figure 1: Overview of OmniCodec framework.

실험 결과

연구 질문

RQ1낮은 프레임 속도의 보편적 코덱이 의미-음향 분리와 함께 음성, 음악 및 일반 소드를 효과적으로 모델링할 수 있는가?
RQ2사전 학습된 이해 모델로부터의 의미 표현을 도입하면 재구성 품질을 저하하지 않으면서 다운스트림 생성 유용성을 향상시킬 수 있는가?
RQ3자기 지도 메커니즘이 도메인 간 코드북 활용도와 재구성 안정성을 향상시키는가?
RQ4OmniCodec가 기존의 단일/다중 코드북 코덱과 비교해 재구성 및 의미 평가 측면에서 음성, 음악, 일반 소리 전반에 걸쳐 어떤 차이가 있는가?
RQ5다양한 오디오 도메인 간 의미 보존 및 재구성을 최적화하는 데이터 도메인 혼합은 무엇인가?

주요 결과

OmniCodec은 음성, 음악 및 일반 소리에 대해 Mimi 코덱 등 여러 기준선보다 동일한 비트레이트에서 우수한 재구성 품질을 달성합니다.
12.5 Hz 프레임 속도에서 OmniCodec 변형은 여러 메트릭에서 더 높은 프레임 속도 단일 코드북 모델보다 우수한 성능을 보입니다(예: STOI, Mel 거리, MCD).
사전 학습된 Qwen3-Omni-AuT-Encoder의 의미 표현은 음악 및 일반 소리 도메인에서 Mimi 코덱 대비 의미 평가(PPL)를 개선하지만, WavLM의 구조로 인해 음성 도메인 결과는 미묘합니다.
자기 지도 손실은 코드북 활용도와 재구성 품질을 향상시키며, 의미 분기 또는 자기 지도를 제거하면 다양한 지표에서 성능이 저하됩니다.
절단(ablation) 결과는 도메인 데이터 비율이 의미 보존에 영향을 미치며, 분리된 어댑터 및 교차 도메인 데이터가 전반적인 성능을 돕는 것으로 나타났습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.