QUICK REVIEW

[論文レビュー] ERM-MinMaxGAP: Benchmarking and Mitigating Gender Bias in Multilingual Multimodal Speech-LLM Emotion Recognition

Zi Haur Pang, Xiaoxue Gao|arXiv (Cornell University)|Mar 22, 2026

Emotion and Mood Recognition被引用数 0

ひとこと要約

MELD-STベースの多言語・マルチモーダルSERベンチマークを紹介し、ERM-MinMaxGAPを提案。これは適応フェアネス重み付けとMinMaxGAP正則化子を用いて最悪言語の性別格差を減少させつつSER性能を向上させるフェアネス重視の学習目的である。

ABSTRACT

Speech emotion recognition (SER) systems can exhibit gender-related performance disparities, but how such bias manifests in multilingual speech LLMs across languages and modalities is unclear. We introduce a novel multilingual, multimodal benchmark built on MELD-ST, spanning English, Japanese, and German, to quantify language-specific SER performance and gender gaps. We find bias is strongly language-dependent, and multimodal fusion does not reliably improve fairness. To address these, we propose ERM-MinMaxGAP, a fairness-informed training objective, which augments empirical risk minimization (ERM) with a proposed adaptive fairness weight mechanism and a novel MinMaxGAP regularizer on the maximum male-female loss gap within each language and modality. Building upon the Qwen2-Audio backbone, our ERM-MinMaxGAP approach improves multilingual SER performance by 5.5% and 5.0% while reducing the overall gender bias gap by 0.1% and 1.4% in the unimodal and multimodal settings, respectively.

研究の動機と目的

英語、日本語、ドイツ語に跨る多言語・マルチモーダル音声LLMベースのSERにおける性別バイアスを動機づけ、定量化する。
SERの公正性を言語効果とコーパス効果から分離する制御済みベンチマーク（MELD-ST）を提供する。
最悪ケースの格差を減らすMax-language gender-gap正則化子を組み合わせたER M-MinMaxGAPを提案する。
提案手法による学習時の公平性と性能のトレードオフを改善しつつ、マルチモーダル融合が公正性を一貫して向上させるとは限らないことを示す。

提案手法

LoRAを用いた音声LLMバックボーン（Qwen2-Audio）を監視下ファインチューニングから開始。
言語内の性別損失ギャップとMaxGAP正則化子を定義する：Delta_l(θ) = |L_{l,F}(θ) − L_{l,M}(θ)| および Δ_max(θ) = max_l Δ_l(θ)。
MinMaxGAP正則化子 R_MinMaxGAP(θ) = (Δ_max(θ))^p を導入（p ∈ {1,2}、経験的には p=2）。
λへのラグランジュ緩和器に inspired な更新による適応的公平性重みを組み込む：λ^{(k+1)} = Π_[0,λ_max](λ^{(k)} + η(Δ_dev^{(k)} − ε))。
目的関数を組み合わせる：L_{ERM−MinMaxGAP}^{(k)}(θ) = L_{ERM}(θ) + λ^{(k)} R_MinMaxGAP(θ)。
英語、日本語、ドイツ語を含むMELD-STで unimodal および multimodal 入力を評価し、SER（W-F1, ACC）と性別バイアスギャップ（TPR, FPR, W-F1, ACC）および AVG を報告する。

Figure 1: Architecture of the proposed method. The method consists of (1) empirical risk minimization for overall SER improvement, (2) MinMaxGAP for minimizing the language-wise gender gap, and (3) adaptive fairness-weight adjustment for fairness-aware SER.

実験結果

リサーチクエスチョン

RQ1多言語・マルチモーダルSERにおける性別バイアスは英語、日本語、ドイツ語の音声LLMバックボーンでどのように現れるか？
RQ2マルチモーダル融合は言語間・設定間で一貫して性別バイアスを減らすか？
RQ3公正性を意識した学習目的は最悪言語の性別格差を低減しつつSER性能を損なわないか？
RQ4訓練中の適応的公平性重みがタスク性能と公平性のバランスをとるうえでどの程度効果的か？

主な発見

多言語・マルチモーダルSERにおける性別バイアスは言語とモデルに強く依存する；マルチモーダル入力が性別格差を一貫して低減するとは限らない。
ERM-MinMaxGAPは単一モーダルおよびマルチモーダルの両方の設定でベースラインよりSER性能を改善（例：多言語の無監視では+5.49 W-F1、+9.75 ACC、単一モーダル；マルチモーダルでは+5.03 W-F1、+3.62 ACC）とAVGの性別バイアスを低減）。
MinMaxGAP正則化子は言語とモダリティを横断して最悪言語の性別格差を抑えることで性能と公正性のトレードオフを強化。
適応的公平性重み付けは制約付き最適化風の更新により、固定正則化強度より公正性と有用性のバランスが良好。
アブレーション実験ではERM + MinMaxGAPが零-shotベースラインを上回り、p=2での適応λはp=1や固定λ設定と比較して公正性とSERの結果が好ましい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。