QUICK REVIEW

[论文解读] ERM-MinMaxGAP: Benchmarking and Mitigating Gender Bias in Multilingual Multimodal Speech-LLM Emotion Recognition

Zi Haur Pang, Xiaoxue Gao|arXiv (Cornell University)|Mar 22, 2026

Emotion and Mood Recognition被引用 0

一句话总结

简述：基于 MELD-ST 的多语言多模态 SER 基准与提出 ERM-MinMaxGAP，一种在自适应公平加权和 MinMaxGAP 正则化下能降低最差语言性别差距同时提升 SER 性能的公平性训练目标。

ABSTRACT

Speech emotion recognition (SER) systems can exhibit gender-related performance disparities, but how such bias manifests in multilingual speech LLMs across languages and modalities is unclear. We introduce a novel multilingual, multimodal benchmark built on MELD-ST, spanning English, Japanese, and German, to quantify language-specific SER performance and gender gaps. We find bias is strongly language-dependent, and multimodal fusion does not reliably improve fairness. To address these, we propose ERM-MinMaxGAP, a fairness-informed training objective, which augments empirical risk minimization (ERM) with a proposed adaptive fairness weight mechanism and a novel MinMaxGAP regularizer on the maximum male-female loss gap within each language and modality. Building upon the Qwen2-Audio backbone, our ERM-MinMaxGAP approach improves multilingual SER performance by 5.5% and 5.0% while reducing the overall gender bias gap by 0.1% and 1.4% in the unimodal and multimodal settings, respectively.

研究动机与目标

在英语、日语和德语的多语言多模态语音 LLM 基于 SER 中量化性别偏见的动机与现状
提供一个受控基准（MELD-ST），以在 SER 公平性上区分语言效应与语料效应
提出 ERM-MinMaxGAP，一种将 ERM 与最大语言性别差距正则化结合的训练目标，降低最差情况的差异
证明多模态融合并不始终提升公平性，并展示所提方法在性能–公平性权衡上的改进

提出的方法

以 LoRA 的方式对语音 LLM 骨干（Qwen2-Audio）进行有监督微调
定义同语言内的性别损失差距与 MaxGAP 正则化：Delta_l(θ) = |L_{l,F}(θ) − L_{l,M}(θ)| 与 Δ_max(θ) = max_l Δ_l(θ)
引入 MinMaxGAP 正则项 R_MinMaxGAP(θ) = (Δ_max(θ))^p，p ∈ {1,2}（经验上 p=2）
通过受拉格朗日乘子启发的更新引入自适应公平权重 λ：λ^{(k+1)} = Π_[0,λ_max](λ^{(k)} + η(Δ_dev^{(k)} − ε))
将目标函数结合：L_{ERM−MinMaxGAP}^{(k)}(θ) = L_{ERM}(θ) + λ^{(k)} R_MinMaxGAP(θ)
在 MELD-ST（含英语、日语、德语）对单模态与多模态输入进行评估，报道 SER（W-F1、ACC）和性别偏差差距（TPR、FPR、W-F1、ACC）以及 AVG

Figure 1: Architecture of the proposed method. The method consists of (1) empirical risk minimization for overall SER improvement, (2) MinMaxGAP for minimizing the language-wise gender gap, and (3) adaptive fairness-weight adjustment for fairness-aware SER.

实验结果

研究问题

RQ1多语言多模态 SER 中，性别偏见如何在使用语音 LLM 主干时在英语、日语和德语间表现？
RQ2多模态融合是否在各语言和设置中一致地降低性别偏见？
RQ3一种公平感知的训练目标是否能在不牺牲 SER 性能的情况下降低最差语言的性别差距？
RQ4在训练过程中自适应公平权重对平衡任务性能与公平性有何效果？

主要发现

在多语言多模态 SER 中，性别偏见高度依赖语言与模型；多模态输入并不能可靠地降低性别差异。
ERM-MinMaxGAP 相较基线在单模态与多模态设置下均提升总体 SER 性能（例如在单模态的多语言增益为 +5.49 的 W-F1 和 +9.75 的 ACC；在多模态为 +5.03 的 W-F1 和 +3.62 的 ACC），同时降低 AVG 性别偏差。
MinMaxGAP 正则化通过降低各语言及模态下的最差语言性别差距，强化了性能–公平性权衡。
带有受约束优化启发的自适应公平加权达到比固定正则化强度更好的公平性–效用平衡。
消融研究显示 ERM + MinMaxGAP 优于零-shot 基线，且在 p=2 时的自适应 λ 相较于 p=1 或固定 λ 设置提供了更优的公平性与 SER 结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。