Skip to main content
QUICK REVIEW

[论文解读] Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Kuan-Tang Huang, Chien-Chun Wang|arXiv (Cornell University)|Mar 17, 2026
Music and Audio Processing被引用 0
一句话总结

本文引入领域对抗训练(DAT),以在 MOS 预测中将真实感知音质与数据集特定偏差解耦,并通过面向方面的领域定义(基于源数据集、K-means 聚类和随机)提升在未见生成场景中的泛化能力。

ABSTRACT

The rapid proliferation of AI-Generated Content (AIGC) has necessitated robust metrics for perceptual quality assessment. However, automatic Mean Opinion Score (MOS) prediction models are often compromised by data scarcity, predisposing them to learn spurious correlations-- such as dataset-specific acoustic signatures-- rather than generalized quality features. To address this, we leverage domain adversarial training (DAT) to disentangle true quality perception from these nuisance factors. Unlike prior works that rely on static domain priors, we systematically investigate domain definition strategies ranging from explicit metadata-driven labels to implicit data-driven clusters. Our findings reveal that there is no "one-size-fits-all" domain definition; instead, the optimal strategy is highly dependent on the specific MOS aspect being evaluated. Experimental results demonstrate that our aspect-specific domain strategy effectively mitigates acoustic biases, significantly improving correlation with human ratings and achieving superior generalization on unseen generative scenarios.

研究动机与目标

  • 解决因有限标注 MOS 数据导致对数据集特定声学签名的过拟合。
  • 提出一个通用的 DAT 框架,在潜在表征中将质量与干扰因素解耦。
  • 系统研究不同领域定义对不同音频质量方面 MOS 预测的影响。
  • 评估在不同骨干模型和未见生成场景下方法的鲁棒性。

提出的方法

  • 使用预训练的 SSL 特征提取器(XLS-R 2B)作为通用编码器。
  • 采用 MultiGauss MOS 预测器,输出均值向量与预测不确定性(m 和 Lambda)。
  • 添加带梯度反转层的领域判别器,强制获得领域不变的潜在表征。
  • 通过多任务目标进行训练,将高斯对数似然损失用于 MOS 预测、交叉熵用于领域分类(带权衡因子 lambda)。
  • 尝试三种领域定义策略:DAT-Source(显式数据集标签)、DAT-Kmeans(数据驱动的声学聚类,K 值可变)和 DAT-Random(随机领域标签)。
  • 在两种骨干上进行评估:带冻结 XLS-R 特征的 MultiGauss,以及对 WavLM 特征进行微调的 Audiobox-Aesthetics。
Figure 1: The proposed model architecture with DAT.
Figure 1: The proposed model architecture with DAT.

实验结果

研究问题

  • RQ1当领域标签是显式、隐式或随机化时,领域对抗训练如何影响 MOS 预测?
  • RQ2K 值(K-means 的粒度)对不同 MOS 方面的预测准确性和排名有何影响?
  • RQ3面向方面的领域策略是否在不同骨干结构和 SSL 特征上具有泛化性?
  • RQ4DAT 是否能降低对数据集特定声学线索的依赖并提高对未见生成音频的泛化能力?

主要发现

  • DAT 策略在所有 MOS 方面相较基线表现出更强的鲁棒性。
  • DAT-Source 最能提升固有内容属性(生产复杂度与内容享受)在降低对数据集身份依赖方面的效果。
  • DAT-Kmeans 在技术与功能属性(生产质量与内容有用性)上通过利用潜在声学结构实现更优的排序准确性。
  • 线性探针显示,在 DAT-Source 下领域依赖减弱,DAT-Kmeans 下潜在结构化组织性增强,支持更好的零-shot 泛化。
  • DAT-Kmeans 的最优粒度出现在 K≈8 时,在 PQ 等相关指标上 SRCC 提升、MSE 降低。
  • 在两种骨干之间,面向方面的 DAT 保持相同的定性趋势,验证领域定义策略的鲁棒性。
Figure 2: Performance comparison on Audiobox-Aesthetics across MSE and SRCC. The results are reported for four aspects: PQ, PC, CE, and CU.
Figure 2: Performance comparison on Audiobox-Aesthetics across MSE and SRCC. The results are reported for four aspects: PQ, PC, CE, and CU.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。