QUICK REVIEW

[論文レビュー] Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Kuan-Tang Huang, Chien-Chun Wang|arXiv (Cornell University)|Mar 17, 2026

Music and Audio Processing被引用数 0

ひとこと要約

論文は、MOS予測におけるデータセット特有のバイアスと真の知覚オーディオ品質を分離するためのドメイン対制御訓練（DAT）を導入し、アスペクト特異的なドメイン定義（ソースベース、K-meansクラスタ、ランダム）を用いて未見の生成シナリオでの一般化を向上させる。

ABSTRACT

The rapid proliferation of AI-Generated Content (AIGC) has necessitated robust metrics for perceptual quality assessment. However, automatic Mean Opinion Score (MOS) prediction models are often compromised by data scarcity, predisposing them to learn spurious correlations-- such as dataset-specific acoustic signatures-- rather than generalized quality features. To address this, we leverage domain adversarial training (DAT) to disentangle true quality perception from these nuisance factors. Unlike prior works that rely on static domain priors, we systematically investigate domain definition strategies ranging from explicit metadata-driven labels to implicit data-driven clusters. Our findings reveal that there is no "one-size-fits-all" domain definition; instead, the optimal strategy is highly dependent on the specific MOS aspect being evaluated. Experimental results demonstrate that our aspect-specific domain strategy effectively mitigates acoustic biases, significantly improving correlation with human ratings and achieving superior generalization on unseen generative scenarios.

研究の動機と目的

ラベル付き MOS データが乏しいため dataset特有の音響シグネチャへの過学習に対処する。
潜在表現の雑音因子から品質を分離する一般化された DAT フレームワークを提案する。
オーディオ品質の各アスペクトに対して異なるドメイン定義が MOS 予測に与える影響を体系的に研究する。
バックボーンモデルと未知の生成シナリオに対するアプローチの頑健性を評価する。

提案手法

一般用途のエンコーダとして事前学習済み SSL フィーチャー抽出器（XLS-R 2B）を使用する。
MultiGauss MOS予測子を採用し平均ベクトルと予測不確実性（m と Lambda）を出力する。
Gradient Reversal Layer を含む Domain Discriminator を追加してドメイン不変の潜在表現を強制する。
MOS予測のGaussian Negative Log-Likelihoodとドメイン分類の交差エントロピー（トレードオフのラムダ付き）を組み合わせたマルチタスク目的で訓練する。
三つのドメイン定義戦略を試す：DAT-Source（明示的なデータセットラベル）、DAT-Kmeans（Kの異なるデータ駆動型音響クラスタ）、DAT-Random（ランダムなドメインラベル）。
二つのバックボーンで評価する：XLS-R特徴を凍結したMultiGaussとWavLM特徴をファインチューニングしたAudiobox-Aesthetics。

Figure 1: The proposed model architecture with DAT.

実験結果

リサーチクエスチョン

RQ1ドメインラベルが明示的・潜在的・ランダムな場合、DATはMOS予測にどのような影響を与えるか。
RQ2K-meansのKの粒度がさまざまなMOSアスペクトの予測精度とランキングに与える影響はどの程度か。
RQ3アスペクト特異的なドメイン戦略は異なるバックボーンアーキテクチャとSSL特徴量に一般化するか。
RQ4DATはデータセット特有の音響的手掛かりへの依存を減少させ、未知の生成オーディオへの一般化を改善できるか。

主な発見

DAT戦略はMOSアスペクト全体でベースラインより頑健性を一貫して向上させる。
DAT-Sourceはデータセットアイデンティティへの依存を減らすことで固有の内容属性（Production ComplexityとContent Enjoyment）を最も改善する。
DAT-Kmeansは潜在音響構造を活用して技術的・機能的属性（Production QualityとContent Usefulness）のランキング精度を高める。
線形プロービングはDAT-Sourceでドメイン依存性を低減し、DAT-Kmeansで潜在組織を構造化してゼロショット一般化を支持する。
DAT-Kmeansの最適なドメイン粒度はK=8付近で、PQや関連指標のSRCCの改善とMSEの低減を示す。
バックボーン間でアスペクト特異的DATは同じ定性的傾向を維持し、ドメイン定義戦略の頑健性を確認する。

Figure 2: Performance comparison on Audiobox-Aesthetics across MSE and SRCC. The results are reported for four aspects: PQ, PC, CE, and CU.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。