QUICK REVIEW

[논문 리뷰] Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Kuan-Tang Huang, Chien-Chun Wang|arXiv (Cornell University)|2026. 03. 17.

Music and Audio Processing인용 수 0

한 줄 요약

논문은 MOS 예측에서 실제 지각 음질과 데이터셋 특정 편향을 구분하기 위해 도메인 적대 학습(DAT)을 도입하고, 요소별 도메인 정의(소스 기반, K-means 클러스터, 무작위)가 unseen 생성 시나리오에 대한 일반화를 개선한다.

ABSTRACT

The rapid proliferation of AI-Generated Content (AIGC) has necessitated robust metrics for perceptual quality assessment. However, automatic Mean Opinion Score (MOS) prediction models are often compromised by data scarcity, predisposing them to learn spurious correlations-- such as dataset-specific acoustic signatures-- rather than generalized quality features. To address this, we leverage domain adversarial training (DAT) to disentangle true quality perception from these nuisance factors. Unlike prior works that rely on static domain priors, we systematically investigate domain definition strategies ranging from explicit metadata-driven labels to implicit data-driven clusters. Our findings reveal that there is no "one-size-fits-all" domain definition; instead, the optimal strategy is highly dependent on the specific MOS aspect being evaluated. Experimental results demonstrate that our aspect-specific domain strategy effectively mitigates acoustic biases, significantly improving correlation with human ratings and achieving superior generalization on unseen generative scenarios.

연구 동기 및 목표

데이터셋 특정 음향 서명에 대한 라벨링된 MOS 데이터의 부족으로 인한 과적합 문제를 해결한다.
품질을 핵심 요인에서 잡음 요인으로 분리하는 일반화된 DAT 프레임워크를 제안한다.
오디오 품질 측면별로 MOS 예측에 영향을 주는 도메인 정의가 어떻게 다른지 체계적으로 연구한다.
다양한 백본 모델과 미지의 생성 시나리오에서 접근 방식의 강건성을 평가한다.

제안 방법

사전 학습된 SSL 특징 추출기(XLS-R 2B)를 일반 목적 인코더로 사용한다.
Gaussian 음수 로그 가능도(MOS 예측용)과 예측 불확실성(m, Lambda))를 생성하기 위해 MultiGauss MOS 예측기를 채택한다.
도메인 불변 잠재 표현을 강제하기 위해 Gradient Reversal Layer가 있는 도메인 식별기를 추가한다.
MOS 예측을 위한 Gaussian 음수 로그 가능도와 도메인 분류를 위한 교차 엔트로피의 다중 작업 objective를 이용하여 학습한다(트레이드오프 람다 포함).
세 가지 도메인 정의 전략을 실험한다: DAT-Source(명시적 데이터셋 라벨), DAT-Kmeans(다른 K 값을 갖는 데이터 기반 음향 클러스터), DAT-Random(무작위 도메인 라벨).
두 개의 백본에서 평가한다: 고정된 XLS-R 특징을 갖는 MultiGauss와 미세 조정된 WavLM 특징을 갖는 Audiobox-Aesthetics.

Figure 1: The proposed model architecture with DAT.

실험 결과

연구 질문

RQ1도메인 라벨이 명시적이거나 암시적이거나 무작위일 때 도메인 적대 학습이 MOS 예측에 어떤 영향을 미치는가?
RQ2K값의 도메인 정의 정밀도가 서로 다른 MOS 측면에서 예측 정확도와 순위에 어떤 영향을 미치는가?
RQ3특정 측면 도메인 전략이 서로 다른 백본 아키텍처와 SSL 특징에서 일반화되는가?
RQ4DAT가 데이터셋 특정 음향 큐에 대한 의존성을 줄이고 미지의 생성 오디오에 대한 일반화를 개선할 수 있는가?

주요 결과

DAT 전략은 MOS 각 측면에서 베이스라인 대비 일관되게 강건성을 향상시킨다.
DAT-Source는 데이터셋 정체성에 대한 의존성을 줄임으로써 고유한 콘텐츠 속성(Production Complexity 및 Content Enjoyment)의 측정을 가장 크게 개선한다.
DAT-Kmeans는 잠재 음향 구조를 활용해 기술적·기능적 속성(PQ 및 Content Usefulness)의 순위 정확도를 우수하게 만든다.
선형 탐색(linear probing)은 DAT-Source로 도메인 의존성이 감소했고 DAT-Kmeans로 구조화된 잠재 조직이 형성되어 제로샷 일반화가 개선됨을 보여준다.
DAT-Kmeans의 최적 도메인 수준은 대략 K=8에서 발생하며, PQ 및 관련 지표의 SRCC 상승과 MSE 감소를 보인다.
백본 간에 도메인 정의 전략의 정성적 추세가 동일하게 유지되어 도메인 정의 전략의 강건성을 확인한다.

Figure 2: Performance comparison on Audiobox-Aesthetics across MSE and SRCC. The results are reported for four aspects: PQ, PC, CE, and CU.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.